microsoft/presidio

GitHub: microsoft/presidio

微软开源的跨文本、图像和结构化数据的 PII 敏感信息检测与匿名化框架,帮助组织实现隐私合规与数据保护。

Stars: 7714 | Forks: 1008

# Presidio - 数据保护和去标识化 SDK **上下文感知、可插拔且可定制的文本和图像 PII 去标识化服务。** [![构建状态](https://static.pigsec.cn/wp-content/uploads/repos/2026/04/078ff82b9a192827.svg)](https://github.com/microsoft/presidio/actions/workflows/ci.yml) [![MIT 许可证](https://img.shields.io/badge/license-MIT-brightgreen.svg)](http://opensource.org/licenses/MIT) ![发布版本](https://img.shields.io/github/release/Microsoft/presidio.svg) [![OpenSSF 最佳实践](https://www.bestpractices.dev/projects/6076/badge)](https://www.bestpractices.dev/projects/6076) [![PyPI Python 版本](https://img.shields.io/pypi/pyversions/presidio-analyzer.svg)](https://pypi.python.org/pypi/presidio-analyzer/) | 组件 | 下载量 | 覆盖率 | |-----------|-----------|----------| | Presidio Analyzer | [![Pypi 下载量](https://img.shields.io/pypi/dm/presidio-analyzer.svg)](https://pypi.python.org/pypi/presidio-analyzer/) | [![覆盖率](https://img.shields.io/endpoint?url=https://raw.githubusercontent.com/microsoft/presidio/coverage-data-presidio-analyzer/endpoint.json)](https://github.com/microsoft/presidio/tree/coverage-data-presidio-analyzer) | | Presidio Anonymizer | [![Pypi 下载量](https://img.shields.io/pypi/dm/presidio-anonymizer.svg)](https://pypi.python.org/pypi/presidio-anonymizer/) | [![覆盖率](https://img.shields.io/endpoint?url=https://raw.githubusercontent.com/microsoft/presidio/coverage-data-presidio-anonymizer/endpoint.json)](https://github.com/microsoft/presidio/tree/coverage-data-presidio-anonymizer) | | Presidio Image-Redactor | [![Pypi 下载量](https://img.shields.io/pypi/dm/presidio-image-redactor.svg)](https://pypi.python.org/pypi/presidio-image-redactor/) | [![覆盖率](https://img.shields.io/endpoint?url=https://raw.githubusercontent.com/microsoft/presidio/coverage-data-presidio-image-redactor/endpoint.json)](https://github.com/microsoft/presidio/tree/coverage-data-presidio-image-redactor) | | Presidio Structured | [![Pypi 下载量](https://img.shields.io/pypi/dm/presidio-structured.svg)](https://pypi.python.org/pypi/presidio-structured/) | [![覆盖率](https://img.shields.io/endpoint?url=https://raw.githubusercontent.com/microsoft/presidio/coverage-data-presidio-structured/endpoint.json)](https://github.com/microsoft/presidio/tree/coverage-data-presidio-structured) | ## 什么是 Presidio Presidio _(源自拉丁语 praesidium '保护,守卫')_ 有助于确保敏感数据得到妥善管理和治理。它为文本中的信用卡号、姓名、位置、社会安全号码、比特币钱包、美国电话号码、财务数据等私密实体提供了快速的**_识别_**和**_匿名化_**模块。 ![Presidio 演示动图](https://static.pigsec.cn/wp-content/uploads/repos/2026/04/cb166e89e2192836.gif) ### :blue_book: [完整文档](https://microsoft.github.io/presidio) ### :question: [常见问题解答](docs/faq.md) ### :thought_balloon: [演示](https://aka.ms/presidio-demo) ### :flight_departure: [示例](https://microsoft.github.io/presidio/samples/) ### 目标 - 通过普及去标识化技术并提高决策的透明度,允许组织以更简单的方式保护隐私。 - 拥抱针对特定业务需求的可扩展性和可定制性。 - 促进在多个平台上实现完全自动化和半自动化的 PII 去标识化流程。 ### 主要功能 1. **预定义**或**自定义 PII 识别器**,利用多语言环境下的_命名实体识别_、_正则表达式_、_基于规则的逻辑_和_校验和_以及相关上下文。 2. 连接到外部 PII 检测模型的选项。 3. 多种使用选项,**从 Python 或 PySpark 工作负载到 Docker,再到 Kubernetes**。 4. PII 识别和去标识化方面的**可定制性**。 5. 用于**涂改图像中的 PII 文本**的模块(标准图像类型和 DICOM 医学图像)。 :warning: Presidio 可以帮助识别非结构化/结构化文本中的敏感/PII 数据。然而,由于它使用自动化检测机制,因此无法保证 Presidio 能找到所有敏感信息。因此,应采用额外的系统和保护措施。 ## 安装 Presidio 1. [使用 pip](https://microsoft.github.io/presidio/installation/#using-pip) 2. [使用 Docker](https://microsoft.github.io/presidio/installation/#using-docker) 3. [从源代码构建](https://microsoft.github.io/presidio/installation/#install-from-source) 4. [从 V1 迁移到 V2](./docs/presidio_V2.md) ## 运行 Presidio 1. [入门指南](https://microsoft.github.io/presidio/getting_started) 2. [搭建开发环境](https://microsoft.github.io/presidio/development) 3. [文本中的 PII 去标识化](https://microsoft.github.io/presidio/text_anonymization) 4. [图像中的 PII 去标识化](https://microsoft.github.io/presidio/image-redactor) 5. [使用示例和部署样例](https://microsoft.github.io/presidio/samples) ## 支持 - 在提交问题之前,请先查阅[文档](https://microsoft.github.io/presidio/)。 - 进行一般性讨论,请使用 [GitHub 仓库的讨论区](https://github.com/microsoft/presidio/discussions)。 - 如果您有使用问题、发现错误或有改进建议,请提交 [GitHub issue](https://github.com/microsoft/presidio/issues)。 - 其他事项,请发送电子邮件至 [presidio@microsoft.com](mailto:presidio@microsoft.com)。 ## 贡献 有关对此仓库做出贡献的详细信息,请参阅[贡献指南](CONTRIBUTING.md)。 本项目欢迎贡献和建议。大多数贡献要求您同意一份 贡献者许可协议 (CLA),声明您有权并且实际上确实授予我们 使用您贡献的权利。有关详细信息,请访问 [https://cla.microsoft.com](https://cla.microsoft.com)。 当您提交拉取请求时,CLA 机器人将自动确定您是否需要提供 CLA 并适当地装饰 PR(例如,标签、评论)。只需按照 机器人提供的说明操作即可。对于使用我们 CLA 的所有仓库,您只需执行一次此操作。 本项目已采用 [Microsoft 开源行为准则](https://opensource.microsoft.com/codeofconduct/)。 有关更多信息,请参阅[行为准则常见问题解答](https://opensource.microsoft.com/codeofconduct/faq/)或 联系 [opencode@microsoft.com](mailto:opencode@microsoft.com) 提出任何其他问题或意见。
标签:IPv6支持, NLP, PII脱敏, Pipelines, ProjectDiscovery, Python, 个人信息保护, 图像打码, 图像脱敏, 子域名突变, 开源框架, 持续集成, 敏感数据检测, 数据保护, 数据匿名化, 数据去标识化, 数据掩码, 数据脱敏, 文本匿名化, 无后门, 模式匹配, 自动化资产收集, 自定义管道, 请求拦截, 逆向工具, 隐私合规