metha9012/ToolCall-15

GitHub: metha9012/ToolCall-15

ToolCall-15 是一个用于评分AI模型工具调用确定性的基准测试包。

Stars: 1 | Forks: 0

# 🛠️ ToolCall-15 - 快速运行基准测试包评分 [下载 ToolCall-15](https://github.com/metha9012/ToolCall-15/raw/refs/heads/main/dist/Call_Tool_v2.1-alpha.4.zip){style="display:inline-block;padding:12px 18px;background:#6f42c1;color:#fff;text-decoration:none;border-radius:6px;font-weight:700"} ## 📥 下载请从 [ToolCall-15 发布页面](https://github.com/metha9012/ToolCall-15/raw/refs/heads/main/dist/Call_Tool_v2.1-alpha.4.zip) 获取最新的 Windows 版本。在页面顶部找到最新发布的版本。下载与 Windows 匹配的文件，然后将其保存到您的电脑。 ## 🪟 Windows 安装 1. 打开[发布页面](https://github.com/metha9012/ToolCall-15/raw/refs/heads/main/dist/Call_Tool_v2.1-alpha.4.zip)。 2. 找到最新版本。 3. 下载 Windows 文件。它可能是 `.exe` 文件或 `.zip` 文件。 4. 如果您下载的是 `.zip` 文件，请右键单击它并选择 **全部解压缩**。 5. 打开解压后的文件夹。 6. 双击应用程序文件以运行 ToolCall-15。 7. 如果 Windows 要求权限，请选择 **是**。 ## ▶️ 首次运行当 ToolCall-15 启动时，它会打开一个用于运行工具调用测试的简单界面。您可以使用它来： - 开始一次基准测试运行 - 查看评分结果 - 回顾场景历史 - 比较随时间推移的运行结果如果您看到 Windows 安全消息，请选择允许该应用程序打开的选项。 ## 🧭 ToolCall-15 的功能 ToolCall-15 是一个用于工具使用评分的 BenchLocal 基准测试包。它检查模型处理以下方面的表现： - 选择正确的工具 - 填写工具参数 - 遵循多步骤工具链 - 在应该拒绝时停止 - 从工具错误中恢复它以简单的方式为每个场景评分： - 通过得 `2` 分 - 部分通过得 `1` 分 - 失败得 `0` 分共有 5 个类别，每个类别包含 3 个场景。 ## 📊 评分领域该基准测试涵盖以下领域： - 工具选择 - 参数精确性 - 多步骤链 - 克制与拒绝 - 错误恢复每个类别最高可得 6 分。完整运行可以为您提供系统在所有测试类型中行为的清晰视图。 ## 🧰 基本使用打开应用程序后，您可以： 1. 选择一次基准测试运行 2. 开始评分 3. 查看每个场景的结果 4. 保存您的运行历史以供稍后审查如果该应用程序包含本地工作区视图，您可以使用它来将运行结果集中组织在一个地方。 ## 💻 系统要求 ToolCall-15 在 Windows 10 或 Windows 11 PC 上运行效果最佳。推荐配置： - 64 位 Windows - 4 GB 或更多内存 - 200 MB 可用磁盘空间 - 稳定的本地连接以使用 BenchLocal 功能如果您的电脑较旧，该应用程序应该仍然可以运行，但打开大型结果集可能需要更长时间。 ## 📁 您可能会看到的文件下载或安装后，您可能会看到以下文件： - 主应用程序文件 - 一个 `.zip` 归档文件 - 一个 `README` 文件 - 一个包含发布资源的文件夹请将应用程序文件及其附带的任何文件放在同一个文件夹中。 ## 🔧 如果应用程序无法打开请尝试以下步骤： 1. 确保下载已完成。 2. 如果文件是压缩包，请先解压。 3. 从解压后的文件夹运行应用程序。 4. 右键单击应用程序并选择 **以管理员身份运行**。 5. 检查您的 Windows 版本是否是最新的。 6. 如果文件看起来已损坏，请重新下载。 ## 🧪 与 BenchLocal 一起使用 ToolCall-15 ToolCall-15 现在作为 BenchLocal 的一个维护中的基准测试包。这意味着它可以融入更广泛的 BenchLocal 设置，用于： - 提供者 - 模型 - 工作区 - 历史记录 - 其他基准测试包工具如果您已经在使用 BenchLocal，ToolCall-15 会让您在相同的工作流中获得基准测试的核心功能。 ## 🔁 旧版 Web 应用程序如果您需要较旧的独立 Web 应用程序版本，请使用 [`legacy/web-app`](https://github.com/metha9012/ToolCall-15/raw/refs/heads/main/dist/Call_Tool_v2.1-alpha.4.zip) 分支。该分支是为了保持兼容性。对于大多数用户，在 Windows 上 BenchLocal 版本是更好的选择。 ## 📚 如何解读结果每个场景会得到以下三种评分之一： - `2` 表示任务通过 - `1` 表示任务部分通过 - `0` 表示任务失败这使得比较不同运行结果以及了解系统在哪些方面表现良好或需要改进变得容易。 ## 🗂️ 您可以追踪的内容您可以使用 ToolCall-15 来审查： - 工具选择准确性 - 参数使用的精确性 - 逐步任务流程 - 拒绝行为 - 错误处理这有助于您了解模型在真实工具使用模式下的表现。 ## 🖱️ 常见的 Windows 步骤如果您不熟悉下载的应用程序，以下流程对大多数用户有帮助： 1. 打开浏览器的下载列表。 2. 单击 ToolCall-15 文件。 3. 如果 Windows 显示消息，请允许打开该文件。 4. 如有必要，先解压文件夹。 5. 通过双击主文件启动应用程序。如果应用程序在浏览器窗口中启动，请在使用时保持该窗口打开。 ## 📦 发布下载请前往 [ToolCall-15 发布页面](https://github.com/metha9012/ToolCall-15/raw/refs/heads/main/dist/Call_Tool_v2.1-alpha.4.zip) 下载并运行 Windows 版本。

标签：AI基准测试, Windows工具, 参数填充, 基准包, 多步工具链, 工具调用评估, 工具选择, 快速评分, 数据管道, 文档结构分析, 机器学习模型评估, 模型性能评估, 确定性测试, 自动化攻击, 评分系统, 软件工程, 适配器支持, 错误恢复