sevgia/sentinelAI

GitHub: sevgia/sentinelAI

一个旨在研究和审计机器学习模型中差分隐私、算法公平性与对抗鲁棒性之间权衡关系的多维可信AI框架。

Stars: 0 | Forks: 0

# Sentinel-AI：多维信任审计框架 **Sentinel-AI** 是一个面向研究的框架，旨在审计和可视化机器学习中的信任三角：**隐私、公平性和鲁棒性。** 该项目探讨了效用（准确率）与伦理约束之间的复杂权衡。具体而言，它重点关注**差分隐私 (DP)** 预算 ($\epsilon$) 如何影响模型在结构化数据集中对对抗性攻击的脆弱性及其产生算法偏见的倾向。 ## 核心审计支柱 Sentinel-AI 从三个关键维度评估模型： * **隐私：** 使用置信度差值法评估成员推理攻击 (MIA) 的脆弱性，以衡量有多少训练数据通过模型的预测“泄露”出去。 * **公平性：** 量化跨种族和性别受保护属性的**差异性影响 (DI)**，以检测算法歧视。 * **鲁棒性：** 使用快速梯度符号法 (FGSM) 测量**对抗准确率**，以测试模型针对目标特征扰动的抵御能力。 ## 主要发现：“公平性悬崖” 我们对 UCI Adult Income 数据集的审计揭示了一个被称为**“公平性悬崖”**的关键现象。随着隐私预算 ($\epsilon$) 的增加以最大化效用，模型的伦理一致性也随之崩溃。 ### 审计结果摘要 | 指标 | $\epsilon=1.0$ (启用隐私) | $\epsilon=10.0$ (最优) | $\epsilon=100.0$ (无隐私) | | :--- | :--- | :--- | :--- | | **准确率** | 75.0% | **84.2%** | 84.7% | | **鲁棒性 (对抗准确率)** | 0.636 | **0.758** | 0.774 | | **种族公平性 (DI)** | 2.961 | **0.214** | 0.100 | | **隐私泄露** | 0.500 | 0.624 | 0.591 | ### 关键分析 1. **公平性悬崖：** 在 $\epsilon=100$ 时，模型达到了峰值准确率 (84.7%)，但付出了极其惨重的公平性代价。种族差异性影响降至 **0.100**，这表明模型为非特权群体预测高收入的概率比特权群体低 10 倍。 2. **鲁棒性悖论：** 与噪声总能提高鲁棒性的理论相反，在 $\epsilon=1.0$ 时，模型对基线（约 75% 的多数类）欠拟合，导致决策边界不稳定，极易受到 FGSM 攻击的操纵。 3. **Sentinel “最佳平衡点”：** 审计确定 **$\epsilon=10.0$** 为“金发姑娘 (Goldilocks)”配置，在保持与无约束基线相比显著更高的公平性和鲁棒性的同时，提供了接近峰值的准确率。注意：高 $\epsilon$ 压力测试 ($\epsilon=100$) 的进行是为了确立 UCI Adult 数据集中“自然偏见”的基线，这也承认了在此规模下隐私边界的空虚性。 ## 技术栈 * **核心逻辑：** PyTorch * **隐私引擎：** Opacus (DP-SGD) * **实验追踪：** MLflow * **数据处理：** Pandas, Scikit-learn * **对抗逻辑：** FGSM (快速梯度符号法) ## 未来工作：对抗性去偏 Sentinel-AI 的下一阶段涉及通过 min-max 优化实现**对抗性去偏**。通过在训练期间引入对抗网络，我们旨在“跨越”公平性悬崖——在恢复差异性影响分数至可接受的监管水平 (>0.8) 的同时，保持高度的效用。 ## 学术背景本项目作为一个框架，用于量化社会技术系统中隐私保护机器学习的隐性成本。 ## 如何运行审计 1. **初始化 MLflow 追踪服务器：** mlflow server --host 127.0.0.1 --port 5000 2. **安装依赖项：** pip install -r requirements.txt 3. **执行 Pipeline：** python main.py 4. **分析结果：** 打开 `http://127.0.0.1:5000` 查看多次运行对比仪表板。

标签：AI可信度, AI安全, AI治理, Apex, Chat Copilot, FGSM, MIA, Opacus, Python, UCI Adult数据集, 主机安全, 人工智能伦理, 公平性悬崖, 凭据扫描, 可信AI, 对抗鲁棒性, 差分隐私, 差异化影响, 成员推理攻击, 数据隐私, 无后门, 机器学习, 模型可视化, 模型审计, 模型评估, 深度学习, 算法公平性, 算法透明度, 网络安全, 逆向工具, 隐私保护