0ca/BoxPwnr
GitHub: 0ca/BoxPwnr
一个模块化框架,用于在大规模安全靶场平台上自动化测试和基准对比不同 LLM 及智能体架构的渗透解题能力。
Stars: 235 | Forks: 28
# BoxPwnr
这是一个有趣的实验,旨在看看大型语言模型(LLM)在独自解决 [HackTheBox](https://www.hackthebox.com/hacker/hacking-labs) 靶机方面能走多远。
BoxPwnr 提供了一个即插即用的系统,可用于测试不同智能体架构的性能:`--solver [chat, chat_tools, chat_tools_compactation, claude_code, hacksynth, external]`。
BoxPwnr 起步于 HackTheBox,但也支持其他平台:`--platform [htb, htb_ctf, htb_challenges, portswigger, ctfd, local, xbow, cybench, picoctf, tryhackme, levelupctf]`
有关每个受支持平台的详细文档,请参阅 [Platform Implementations](src/boxpwnr/platforms/README.md)。
BoxPwnr 提供了一个即插即用的系统,可用于测试不同智能体架构的性能:`--solver [chat, chat_tools, chat_tools_compactation, claude_code, hacksynth, external]`。
# 轨迹与基准测试
所有的解题轨迹均可在 [BoxPwnr Traces & Benchmarks](https://0ca.github.io/BoxPwnr-Traces/stats/) 中获取。每个轨迹都包含完整的对话日志,展示了 LLM 的推理过程、执行的命令以及接收到的输出。您可以在交互式 Web 查看器中重放任何轨迹,以逐步查看靶机是如何被攻破的。
标签:Agentic Strategies, BoxPwnr, DLL 劫持, HackTheBox, LLM, Petitpotam, Python, TGT, TryHackMe, Unmanaged PE, 人工智能安全, 反取证, 合规性, 大语言模型, 安全智能体, 安全评估, 实时处理, 密码管理, 攻防演练, 数据展示, 无后门, 红队, 网络安全, 自动化攻防, 请求拦截, 逆向工具, 隐私保护