ShashwatKamlapure08-hub/CodeAegis

GitHub: ShashwatKamlapure08-hub/CodeAegis

CodeAegis 通过非功能性语义变异模拟对抗攻击，评估并加固静态代码安全扫描模型的鲁棒性。

Stars: 0 | Forks: 0

# 🛡️ CodeAegis：静态安全模型的对抗鲁棒性分析器 CodeAegis 是一个对抗性机器学习评估与防御框架，旨在揭露并修补浅层静态代码扫描器的结构性漏洞。通过利用非功能性语义变异（标识符混淆和死代码注释注入），CodeAegis 展示了在不改变软件底层执行逻辑或安全参数的情况下，字符级文本表示模型是多么容易被欺骗。它通过对抗性数据增强实现了强大的防御架构，从而封堵这一关键的安全漏洞。 ## 📊 核心性能指标矩阵 | 模型配置 | 评估目标集 | 模型总体准确率 | 安全 (0) F1分数 | 漏洞 (1) F1分数 | 状态 / 洞察 | | :--- | :--- | :---: | :---: | :---: | :--- | | **基线分类器** | 干净测试集 | 33.55% | 0.37 (估计值) | 0.28 (估计值) | 🟢 功能性基础层 | | **基线分类器** | 对抗集 | 32.59% | 0.37 | 0.28 | ⚠️ 脆弱（因伪装导致下降） | | **对抗补丁** | 干净测试集 | **34.19%** | 0.36 | 0.31 | 🛡️ 通过数据增强加固 | | **对抗补丁** | 对抗集 | **33.55%** | 0.36 | 0.31 | 🛡️ 免疫（**补丁后差值：0.64%**） | ### 🔍 关键学术观察 1. **脆弱性鸿沟：** 在基线条件下，简单的结构重排就会导致性能下降。对抗性变异改变了表层的字符级特征，导致传统机器学习向量空间中出现语义断连。 2. **防御补丁：** 通过使用自动化变异（`patched_scanner.py`）将训练语料库词汇表从 **1251 行扩展到 2502 行**，修补后的模型稳定了其内部不变量。鲁棒性下降幅度从一个不稳定的边缘压缩到了极其稳定的 **0.64%**。 3. **语义瓶颈：** 绝对准确率边界（~34%）证实了字符级 n-gram 文本向量化数组无法解析深层程序语义，这为未来基于图的依赖结构提供了强有力的学术依据。 ## 📁 仓库目录结构 ``` CodeAegis/ ├── src/ │ ├── CodeAegis.png # Dashboard preview image │ ├── perturbation_engine.py # Week 2: Attack implementation & token camouflage │ ├── patched_scanner.py # Week 3: Defensive adversarial retraining module │ └── app.py # Week 4: Streamlit multi-engine web user interface ├── .gitignore └── README.md # System configuration & overview documentation ``` ## 🖥️ 系统界面与演示以下是 CodeAegis 对抗性评估套件并排处理代码脚本以检测工程伪装绕过的实时预览： ### CodeAegis 仪表盘预览 ![CodeAegis 仪表盘](https://raw.githubusercontent.com/ShashwatKamlapure08-hub/CodeAegis/main/src/CodeAegis.png)

标签：Apex, Kubernetes, Python, 人工智能安全, 动态调用, 合规性, 数据增强, 无后门, 机器学习, 逆向工具, 错误基检测, 静态代码分析