i-xul/multilingual-log-analysis

GitHub: i-xul/multilingual-log-analysis

一款基于语言感知的安全日志分析工具，专注检测多语言攻击模式并生成结构化报告。

Stars: 0 | Forks: 0

# 多语言日志分析一个基于 Python 的安全日志分析项目，用于识别服务器日志中的语言相关攻击模式。该项目重点关注： - 检测 Web 服务器和身份验证日志中的可疑请求 - 识别西里尔字母及多语言攻击尝试 - 提取常用于暴力破解或探测活动的关键词 - 生成简洁的 JSON 报告以便进一步分析 ## 本项目存在的原因大多数日志分析聚焦于 IP、状态码和端点。本项目增加了一层分析： **语言感知分析**。这意味着： - 检测基于西里尔字母的载荷 - 识别多语言登录尝试 - 突出显示俄语/乌克兰语上下文中的可疑关键词 - 使攻击流量更易于解读 ## 功能 - 逐行解析日志文件 - 检测西里尔字符 - 对可能的语言类别进行评分： - `ru_or_ua` - `latin_only` - `mixed` - `unknown` - 检测可疑的安全相关关键词 - 生成 JSON 格式摘要报告 ## 当前状态初始可用原型。 ## 用法 ``` python3 src/analyzer.py sample_logs/nginx_access_sample.log --output output/report.json ``` ## 示例输出 ``` { "total_lines": 3, "categorized_lines": { "ru_or_ua": 1, "latin_only": 1, "mixed": 1, "unknown": 0 }, "suspicious_keyword_hits": { "admin": 1, "password": 1, "админ": 1 } } ``` ## 实际应用本工具旨在分析来自以下来源的真实服务器日志： - Nginx 访问日志 - SSH 身份验证日志 - 自托管环境使用场景示例： - 检测暴力破解登录尝试 - 识别非拉丁字母的攻击模式 - 分析可疑流量来源 # 未来的改进方向 ## 版本 2 - 基于 IP 的聚合 - 端点聚类 - 请求方法统计 - 可疑路径检测 - 用户代理异常检测 ## 安全集成 - Fail2ban 过滤器辅助输出 - 阻断列表生成 - 兼容 cron 的报告 ## 语言分析改进 - 更好的俄语与乌克兰语区分 - 转写关键词检测 - 短语评分 - 多语言载荷分析

标签：AMSI绕过, Cyrillic, JSON报告, latin_only, mixed, Nginx日志, PoC, Python, ru_or_ua, SSH日志, unknown, Web日志, 乌克兰语, 俄语, 关键词提取, 多语言分析, 威胁检测, 字符检测, 安全关键词, 安全日志, 实时分析, 密码, 开源安全工具, 异常检测, 探测攻击, 攻击模式, 文本分类, 文本处理, 无后门, 日志可视化, 日志解析, 暴力破解, 管理员, 编码识别, 脚本工具, 证书伪造, 语言分类, 语言感知, 逆向工具, 逆向工程平台, 非拉丁攻击