StressTestor/CodeEfficiencyEvalTool
GitHub: StressTestor/CodeEfficiencyEvalTool
一个基于 Python 的代码效率自评工具,用于评估 LLM 生成代码的性能、复杂度与正确性并记录日志。
Stars: 0 | Forks: 0
# 代码效率自评工具
一个独立的 Python 工具,用于评估任何语言模型或自动化系统生成的代码性能。
本脚本功能如下:
- 生成简单的 Python 代码片段(函数、类、CLI)
- 测量生成时间
- 使用 AST 分析结构复杂度
- 执行并验证代码
- 将结果记录到带时间戳的文件中
## 📁 项目结构
| 文件 | 说明 |
|------|------|
| `code_efficiency.py` | 核心脚本,用于生成、计时、验证和分析代码 |
| `run_code_eval.bat` | 可从任意文件夹启动。验证 Python 可用性后运行脚本 |
| `devstral_eval_log.txt` | 初始评估会话的示例日志文件 |
## 🚀 使用方法
### 🔹 要求
- Python 3.8+
- 支持命令行或 Shell 访问的操作系统(已在 Windows 11 测试)
### 🔹 运行步骤
1. 将 ZIP 压缩包解压到任意目录。
2. 双击 `run_code_eval.bat` 文件。
3. 终端窗口将打开并执行 Python 评估脚本。
4. 结果将记录在 `devstral_eval_log.txt` 中。
### 🔹 示例输出
```
[YYYY-MM-DD HH:MM:SS] Code generated successfully.
[YYYY-MM-DD HH:MM:SS] Generated code in 0.0005 seconds
[YYYY-MM-DD HH:MM:SS] Code complexity (AST nodes): 12
[YYYY-MM-DD HH:MM:SS] Code executed successfully.
```
## 🔍 功能特性
- 📏 测量运行时性能
- 🌳 基于 AST 的复杂度分析
- ✅ 语法与执行验证
- 📓 带时间戳的自动日志记录
- 💡 模块化设计,便于扩展(例如 CSV 输出、重构)
## 🔧 未来计划
- 添加 Token 估算(用于成本感知)
- 集成测试用例通过/失败评分
- 导出结果到 CSV 或 JSON
- 挑战模型改进或重构其自身输出
_本项目展示递归工具使用、LLM 元评估以及通过 AST 进行代码自省。旨在测试不同模型下代码的可靠性与性能。_
标签:Benchmark, ETW劫持, LLM代码生成评测, Python, SEO关键词, Windows批处理, 二进制发布, 代码可靠性测试, 代码复杂度分析, 代码性能评估, 代码执行, 代码效率, 代码生成评估, 代码自检, 代码自生成, 元评估, 可扩展工具, 复杂度度量, 开源工具, 性能测量, 执行验证, 批处理脚本, 文档结构分析, 无后门, 日志记录, 时间戳日志, 模块化设计, 自动化payload嵌入, 自动化修复, 自评估工具, 语法检查, 逆向工具, 递归工具使用