AbdallahElgamasy/AI-privacy-pipeline

GitHub: AbdallahElgamasy/AI-privacy-pipeline

一个数据匿名化编排器,通过多种隐私保护技术对多格式敏感数据进行统一脱敏与审计。

Stars: 0 | Forks: 0

# 数据匿名化编排器(DAO)隐私管道 ## 概述 本项目实现了一个**数据匿名化编排器(Data Anonymization Orchestrator,DAO)**,用于处理并匿名化多个真实场景中的敏感数据。 系统支持多种输入格式: - CSV(端点管理) - JSON(能源与多站点) - 明志日志(物联网) 它应用以下隐私保护技术: - 掩码(Masking) - 哈希 / 伪匿名化(Hashing / Pseudonymization) - K-匿名性(K-Anonymity) - 差分隐私(Differential Privacy) - 泛化(Generalization) - 聚合(Aggregation) 每种技术会根据具体使用场景动态应用。 ## 系统架构

dao_pipeline

DAO 管道包含以下组件: - **原始数据源** - **摄取层** - **发现引擎** - **匿名化引擎** - **安全数据转换** - **安全输出与审计** - **终端 UI** ## 项目结构 ``` DAO-MVP/ │ ├── app.py ├── iot_edge_security.py ├── README.md ├── requirements.txt ├── dao_pipeline.png │ ├── config/ │ ├── terminal_ui.py │ ├── usecase_processors.py │ ├── usecase_runner.py │ └── usecases.py │ ├── core/ │ ├── differential_privacy.py │ ├── k_anonymity.py │ ├── pii_detection.py │ ├── presidio_masking.py │ └── transformers.py │ ├── sample_data/ │ ├── csv_input/ │ ├── json_input/ │ ├── output/ │ ├── Belgian Use Case Renewable Energy Forecasting/ │ ├── Portuguese Use Case Residential IoT Security/ │ ├── Turkish Use Case Enterprise Endpoint Management/ │ └── UK Use Case Commercial Multi-Site Management/ │ └── venv/ ``` ## 使用场景 ### 🇵🇹 葡萄牙使用场景 – 物联网安全 - 基于正则的日志解析 - MAC 地址伪匿名化 - IP 掩码 - RF 泛化 ### 🇹🇷 土耳其使用场景 – 端点管理 - K-匿名性分组 - 属性泛化 - 数据掩码 ### 🇬🇧 英国使用场景 – 多站点管理 - 站点泛化 - 时间戳舍入 - 会话掩码 ### 🇧🇪 比利时使用场景 – 能源预测 - 差分隐私(噪声注入) - 聚合与平滑 - 位置精度降低 ## 技术映射 | 技术 | 葡萄牙 | 土耳其 | 英国 | 比利时 | |-------------------|--------|--------|------|--------| | 正则表达式 | ✔️ | ❌ | ❌ | ❌ | | 哈希 | ✔️ | ❌ | ❌ | ❌ | | 掩码 | ✔️ | ✔️ | ✔️ | ❌ | | K-匿名性 | ❌ | ✔️ | ❌ | ❌ | | 差分隐私 | ❌ | ❌ | ❌ | ✔️ | | 泛化 | ✔️ | ✔️ | ✔️ | ✔️ | | 聚合 | ✔️ | ✔️ | ✔️ | ✔️ | ## 核心组件 ### 发现引擎 - 正则检测(已实现) - NLP(spaCy)——可选 - Presidio——可选 ### 匿名化引擎 - 掩码 - 哈希 - K-匿名性 - 差分隐私 ### 安全数据转换 - 清洗 - 聚合 - 特征转换 ### 输出层 - 匿名化数据集(CSV / TXT) - 审计日志(JSON) ## 如何运行 ### 1. 创建虚拟环境 ``` python -m venv venv ``` ### 2. 激活环境 ``` venv\Scripts\activate ``` ### 3. 安装依赖 ``` pip install -r requirements.txt ``` ### 4. 运行管道 ``` python app.py ``` ## 系统行为 - 自动遍历所有使用场景 - 在终端中显示格式化结果 - 生成匿名化输出和审计日志 - 在每个使用场景之间等待 10 秒 - 以完成消息结束 ## 输出 每个使用场景会生成: - 匿名化数据集 - `audit_receipt.json` ### 示例: ``` { "pipeline": "DAO-MVP", "records_processed": 100, "transformations": [ "masking", "generalization", "noise injection" ], "output_file": "..." } ``` ## 隐私设计 本系统表明: - 隐私技术取决于数据类型 - 并非所有数据集都需要 NLP 或高级 PII 检测 - 泛化 + 聚合足以保障安全分析 - 差分隐私用于高度敏感的数值数据 ## 后续改进 - 完整的 NLP 集成(spaCy / Presidio) - 实时流处理(Kafka / MQTT) - Web 仪表板 - 云存储集成 ## 作者 **Abdallah Elgamasy** 网络安全部门 – BLC
标签:CSV处理, DAO, Homebrew安装, IoT安全, JSON处理, K-匿名性, NLP, 一般化, 伪匿名化, 匿名化, 哈希, 土耳其用例, 多站点管理, 安全转换, 审计输出, 差分隐私, 恶意代码分析, 数据匿名化编排器, 数据发现引擎, 数据掩码, 数据脱敏, 数据脱敏管道, 日志处理, 样本数据, 模块化架构, 比利时用例, 端点管理, 终端UI, 网络安全, 聚合, 能源数据, 英国用例, 葡萄牙语用例, 逆向工具, 配置文件, 隐私保护, 隐私工程, 项目结构