microsoft/presidio
GitHub: microsoft/presidio
微软开源的跨文本、图像和结构化数据的 PII 敏感信息检测与匿名化框架,帮助组织实现隐私合规与数据保护。
Stars: 7714 | Forks: 1008
# Presidio - 数据保护和去标识化 SDK
**上下文感知、可插拔且可定制的文本和图像 PII 去标识化服务。**
[](https://github.com/microsoft/presidio/actions/workflows/ci.yml)
[](http://opensource.org/licenses/MIT)

[](https://www.bestpractices.dev/projects/6076)
[](https://pypi.python.org/pypi/presidio-analyzer/)
| 组件 | 下载量 | 覆盖率 |
|-----------|-----------|----------|
| Presidio Analyzer | [](https://pypi.python.org/pypi/presidio-analyzer/) | [](https://github.com/microsoft/presidio/tree/coverage-data-presidio-analyzer) |
| Presidio Anonymizer | [](https://pypi.python.org/pypi/presidio-anonymizer/) | [](https://github.com/microsoft/presidio/tree/coverage-data-presidio-anonymizer) |
| Presidio Image-Redactor | [](https://pypi.python.org/pypi/presidio-image-redactor/) | [](https://github.com/microsoft/presidio/tree/coverage-data-presidio-image-redactor) |
| Presidio Structured | [](https://pypi.python.org/pypi/presidio-structured/) | [](https://github.com/microsoft/presidio/tree/coverage-data-presidio-structured) |
## 什么是 Presidio
Presidio _(源自拉丁语 praesidium '保护,守卫')_ 有助于确保敏感数据得到妥善管理和治理。它为文本中的信用卡号、姓名、位置、社会安全号码、比特币钱包、美国电话号码、财务数据等私密实体提供了快速的**_识别_**和**_匿名化_**模块。

### :blue_book: [完整文档](https://microsoft.github.io/presidio)
### :question: [常见问题解答](docs/faq.md)
### :thought_balloon: [演示](https://aka.ms/presidio-demo)
### :flight_departure: [示例](https://microsoft.github.io/presidio/samples/)
### 目标
- 通过普及去标识化技术并提高决策的透明度,允许组织以更简单的方式保护隐私。
- 拥抱针对特定业务需求的可扩展性和可定制性。
- 促进在多个平台上实现完全自动化和半自动化的 PII 去标识化流程。
### 主要功能
1. **预定义**或**自定义 PII 识别器**,利用多语言环境下的_命名实体识别_、_正则表达式_、_基于规则的逻辑_和_校验和_以及相关上下文。
2. 连接到外部 PII 检测模型的选项。
3. 多种使用选项,**从 Python 或 PySpark 工作负载到 Docker,再到 Kubernetes**。
4. PII 识别和去标识化方面的**可定制性**。
5. 用于**涂改图像中的 PII 文本**的模块(标准图像类型和 DICOM 医学图像)。
:warning: Presidio 可以帮助识别非结构化/结构化文本中的敏感/PII 数据。然而,由于它使用自动化检测机制,因此无法保证 Presidio 能找到所有敏感信息。因此,应采用额外的系统和保护措施。
## 安装 Presidio
1. [使用 pip](https://microsoft.github.io/presidio/installation/#using-pip)
2. [使用 Docker](https://microsoft.github.io/presidio/installation/#using-docker)
3. [从源代码构建](https://microsoft.github.io/presidio/installation/#install-from-source)
4. [从 V1 迁移到 V2](./docs/presidio_V2.md)
## 运行 Presidio
1. [入门指南](https://microsoft.github.io/presidio/getting_started)
2. [搭建开发环境](https://microsoft.github.io/presidio/development)
3. [文本中的 PII 去标识化](https://microsoft.github.io/presidio/text_anonymization)
4. [图像中的 PII 去标识化](https://microsoft.github.io/presidio/image-redactor)
5. [使用示例和部署样例](https://microsoft.github.io/presidio/samples)
## 支持
- 在提交问题之前,请先查阅[文档](https://microsoft.github.io/presidio/)。
- 进行一般性讨论,请使用 [GitHub 仓库的讨论区](https://github.com/microsoft/presidio/discussions)。
- 如果您有使用问题、发现错误或有改进建议,请提交 [GitHub issue](https://github.com/microsoft/presidio/issues)。
- 其他事项,请发送电子邮件至 [presidio@microsoft.com](mailto:presidio@microsoft.com)。
## 贡献
有关对此仓库做出贡献的详细信息,请参阅[贡献指南](CONTRIBUTING.md)。
本项目欢迎贡献和建议。大多数贡献要求您同意一份
贡献者许可协议 (CLA),声明您有权并且实际上确实授予我们
使用您贡献的权利。有关详细信息,请访问 [https://cla.microsoft.com](https://cla.microsoft.com)。
当您提交拉取请求时,CLA 机器人将自动确定您是否需要提供
CLA 并适当地装饰 PR(例如,标签、评论)。只需按照
机器人提供的说明操作即可。对于使用我们 CLA 的所有仓库,您只需执行一次此操作。
本项目已采用 [Microsoft 开源行为准则](https://opensource.microsoft.com/codeofconduct/)。
有关更多信息,请参阅[行为准则常见问题解答](https://opensource.microsoft.com/codeofconduct/faq/)或
联系 [opencode@microsoft.com](mailto:opencode@microsoft.com) 提出任何其他问题或意见。
标签:IPv6支持, NLP, PII脱敏, Pipelines, ProjectDiscovery, Python, 个人信息保护, 图像打码, 图像脱敏, 子域名突变, 开源框架, 持续集成, 敏感数据检测, 数据保护, 数据匿名化, 数据去标识化, 数据掩码, 数据脱敏, 文本匿名化, 无后门, 模式匹配, 自动化资产收集, 自定义管道, 请求拦截, 逆向工具, 隐私合规