StressTestor/CodeEfficiencyEvalTool

GitHub: StressTestor/CodeEfficiencyEvalTool

一个基于 Python 的代码效率自评工具,用于评估 LLM 生成代码的性能、复杂度与正确性并记录日志。

Stars: 0 | Forks: 0

# 代码效率自评工具 一个独立的 Python 工具,用于评估任何语言模型或自动化系统生成的代码性能。 本脚本功能如下: - 生成简单的 Python 代码片段(函数、类、CLI) - 测量生成时间 - 使用 AST 分析结构复杂度 - 执行并验证代码 - 将结果记录到带时间戳的文件中 ## 📁 项目结构 | 文件 | 说明 | |------|------| | `code_efficiency.py` | 核心脚本,用于生成、计时、验证和分析代码 | | `run_code_eval.bat` | 可从任意文件夹启动。验证 Python 可用性后运行脚本 | | `devstral_eval_log.txt` | 初始评估会话的示例日志文件 | ## 🚀 使用方法 ### 🔹 要求 - Python 3.8+ - 支持命令行或 Shell 访问的操作系统(已在 Windows 11 测试) ### 🔹 运行步骤 1. 将 ZIP 压缩包解压到任意目录。 2. 双击 `run_code_eval.bat` 文件。 3. 终端窗口将打开并执行 Python 评估脚本。 4. 结果将记录在 `devstral_eval_log.txt` 中。 ### 🔹 示例输出 ``` [YYYY-MM-DD HH:MM:SS] Code generated successfully. [YYYY-MM-DD HH:MM:SS] Generated code in 0.0005 seconds [YYYY-MM-DD HH:MM:SS] Code complexity (AST nodes): 12 [YYYY-MM-DD HH:MM:SS] Code executed successfully. ``` ## 🔍 功能特性 - 📏 测量运行时性能 - 🌳 基于 AST 的复杂度分析 - ✅ 语法与执行验证 - 📓 带时间戳的自动日志记录 - 💡 模块化设计,便于扩展(例如 CSV 输出、重构) ## 🔧 未来计划 - 添加 Token 估算(用于成本感知) - 集成测试用例通过/失败评分 - 导出结果到 CSV 或 JSON - 挑战模型改进或重构其自身输出 _本项目展示递归工具使用、LLM 元评估以及通过 AST 进行代码自省。旨在测试不同模型下代码的可靠性与性能。_
标签:Benchmark, ETW劫持, LLM代码生成评测, Python, SEO关键词, Windows批处理, 二进制发布, 代码可靠性测试, 代码复杂度分析, 代码性能评估, 代码执行, 代码效率, 代码生成评估, 代码自检, 代码自生成, 元评估, 可扩展工具, 复杂度度量, 开源工具, 性能测量, 执行验证, 批处理脚本, 文档结构分析, 无后门, 日志记录, 时间戳日志, 模块化设计, 自动化payload嵌入, 自动化修复, 自评估工具, 语法检查, 逆向工具, 递归工具使用