i-xul/multilingual-log-analysis
GitHub: i-xul/multilingual-log-analysis
一款基于语言感知的安全日志分析工具,专注检测多语言攻击模式并生成结构化报告。
Stars: 0 | Forks: 0
# 多语言日志分析
一个基于 Python 的安全日志分析项目,用于识别服务器日志中的语言相关攻击模式。
该项目重点关注:
- 检测 Web 服务器和身份验证日志中的可疑请求
- 识别西里尔字母及多语言攻击尝试
- 提取常用于暴力破解或探测活动的关键词
- 生成简洁的 JSON 报告以便进一步分析
## 本项目存在的原因
大多数日志分析聚焦于 IP、状态码和端点。
本项目增加了一层分析:
**语言感知分析**。
这意味着:
- 检测基于西里尔字母的载荷
- 识别多语言登录尝试
- 突出显示俄语/乌克兰语上下文中的可疑关键词
- 使攻击流量更易于解读
## 功能
- 逐行解析日志文件
- 检测西里尔字符
- 对可能的语言类别进行评分:
- `ru_or_ua`
- `latin_only`
- `mixed`
- `unknown`
- 检测可疑的安全相关关键词
- 生成 JSON 格式摘要报告
## 当前状态
初始可用原型。
## 用法
```
python3 src/analyzer.py sample_logs/nginx_access_sample.log --output output/report.json
```
## 示例输出
```
{
"total_lines": 3,
"categorized_lines": {
"ru_or_ua": 1,
"latin_only": 1,
"mixed": 1,
"unknown": 0
},
"suspicious_keyword_hits": {
"admin": 1,
"password": 1,
"админ": 1
}
}
```
## 实际应用
本工具旨在分析来自以下来源的真实服务器日志:
- Nginx 访问日志
- SSH 身份验证日志
- 自托管环境
使用场景示例:
- 检测暴力破解登录尝试
- 识别非拉丁字母的攻击模式
- 分析可疑流量来源
# 未来的改进方向
## 版本 2
- 基于 IP 的聚合
- 端点聚类
- 请求方法统计
- 可疑路径检测
- 用户代理异常检测
## 安全集成
- Fail2ban 过滤器辅助输出
- 阻断列表生成
- 兼容 cron 的报告
## 语言分析改进
- 更好的俄语与乌克兰语区分
- 转写关键词检测
- 短语评分
- 多语言载荷分析
标签:AMSI绕过, Cyrillic, JSON报告, latin_only, mixed, Nginx日志, PoC, Python, ru_or_ua, SSH日志, unknown, Web日志, 乌克兰语, 俄语, 关键词提取, 多语言分析, 威胁检测, 字符检测, 安全关键词, 安全日志, 实时分析, 密码, 开源安全工具, 异常检测, 探测攻击, 攻击模式, 文本分类, 文本处理, 无后门, 日志可视化, 日志解析, 暴力破解, 管理员, 编码识别, 脚本工具, 证书伪造, 语言分类, 语言感知, 逆向工具, 逆向工程平台, 非拉丁攻击