alexanderplionis-ctrl/investigation-study-program
GitHub: alexanderplionis-ctrl/investigation-study-program
这是一个利用SQL和Python构建CBRN-E威胁检测和AI滥用分析调查流水线的结构化学习项目。
Stars: 0 | Forks: 0
# SQL与Python调查研究计划
CBRN-E行为检测组合应用于模拟API日志数据,与AI滥用调查工作流相关。
## 结业项目:端到端行为检测流水线
第二个月结业项目(`month2_capstone.py`)是一个七步自动化调查流水线,它摄取模拟API日志,计算行为风险信号,使用基于规则的逻辑和机器学习异常检测对活动进行评分,执行网络图分析,并生成优先级调查队列。
**流水线步骤:**
1. 通过SQLAlchemy进行数据摄取
2. 跨越五个行为信号的特征工程
3. 基于规则的检测层
4. IsolationForest ML异常评分
5. NetworkX网络图分析
6. 复合优先级排名
7. CSV输出和调查简报
### 行为评分方案 v1.0
该流水线针对模拟API日志条目计算五个行为风险信号。每个信号都承载一个加权分值,这些分值共同贡献于复合优先级分数:
| 信号 | 触发条件 | 分值 |
| --- | --- | --- |
| 午夜活动比率 | >20% 的活动发生在非工作时间 | 20 |
| CBRN查询百分比 | >25% 的查询被标记为CBRN相关 | 30 |
| 来源未知国家查询 | 存在任何无法归属来源的请求 | 20 |
| 响应长度异常 | 与基线相差 >1.5 个标准差 | 15 |
| 网络连通性 | 账户间存在任何共享IP | 15 |
复合分数决定了调查队列输出中的优先级排序。
## 关于本项目组合
本仓库记录了一个为期六个月的结构化自学计划,旨在构建用于CBRN-E行为检测和调查性数据分析的实用SQL和Python技能。该计划旨在为二十年的CBRN-E威胁调查操作经验,补充AI时代威胁检测工作流所需的实用技术工具。第1个月和第2个月已完成,结业项目已交付;第3至6个月正在进行中。
更广泛的专业背景请访问:scholar.google.com/citations?user=I5Q1SqwAAAAJ
## 计划状态
* 第1个月:已完成(结业项目已交付)
* 第2个月:已完成(结业项目已交付)
* 第3-6个月:进行中
## 仓库结构
### SQL
| 文件 | 描述 |
| --- | --- |
| `Task 1a.sql` | 第1个月结业项目SQL查询 |
| `capstone_queries.sql` | 针对结业数据集的第1个月调查查询 |
| `month2_queries.sql` | 第2个月高级SQL:窗口函数、CTE、时间分析、字符串函数 |
### Python
| 文件 | 描述 |
| --- | --- |
| `month2_capstone.py` | **第2个月结业项目**:端到端检测流水线 |
| `capstone.py` | 第1个月结业项目:pandas分析API日志 |
| `precapstone.py` | SQLAlchemy、IsolationForest和NetworkX基础练习 |
| `week8.py` | 使用openpyxl的Excel输出、高级可视化、调查仪表板 |
| `week7.py` | pandas深入学习:merge、groupby、apply、datetime特征 |
| `day8.py` | 用于日志解析和IP提取的正则表达式 |
| `day7.py` | JSON处理和嵌套数据提取 |
| `day6.py` | 模块化调查流水线(六步设计) |
| `day5.py` | Datetime处理和matplotlib可视化 |
| `day4.py` | pandas流水线:风险评分和调查队列 |
| `day3.py` | 函数、CSV文件处理、关键词检测 |
| `day2.py` | 列表、字典、循环、条件逻辑 |
| `hello.py` | 第1天:变量、数据类型、f-strings |
### 数据
| 文件 | 描述 |
| --- | --- |
| `capstone_logs_clean.csv` | 1,000条模拟API日志条目(干净的UTF-8编码) |
| `accounts.csv` | 用于早期练习的小型账户数据集 |
| `api_logs.json` | 带有嵌套元数据的模拟JSON API日志条目 |
### 输出
| 文件 | 描述 |
| --- | --- |
| `investigation_report.xlsx` | 格式化的Excel调查报告,内嵌仪表板 |
| `investigation_dashboard.png` | 多图表调查可视化 |
| `month2_investigation_queue.csv` | 来自第2个月结业项目的优先级调查队列 |
## 技术栈
**SQL**:SQLite、复杂查询、窗口函数、CTE、时间分析、递归CTE
**Python**:pandas、numpy、scikit-learn、NetworkX、SQLAlchemy、matplotlib、openpyxl、json、re
**工具**:DB Browser for SQLite、VS Code、Git、Jupyter
## 说明
这是一个建立在模拟数据上的实用知识组合。它不是生产代码,并且模拟的日志数据集(1,000行)比实际生产威胁调查系统处理的数据量小了好几个数量级。其目的是展示与行为威胁检测工作流相关的实用调查推理和端到端检测流水线的构建。
标签:AI滥用分析, Apex, API日志分析, CBRN-E威胁检测, IsolationForest, NetworkX, Python编程, SQLAlchemy, SQL数据处理, 云计算, 优先级排名, 威胁情报, 工作流分析, 开发者工具, 异常检测, 数据摄入, 数据特征工程, 机器学习, 特权检测, 突变策略, 网络图分析, 自动化调查, 行为检测, 行为风险评分, 规则引擎, 调查管道, 逆向工具