otmanm/ai-evaluation-workshop

GitHub: otmanm/ai-evaluation-workshop

这是一个用于构建、衡量和交付生产级AI系统的20模块课程体系，旨在解决AI系统在生产环境中可靠性不足的问题。

Stars: 0 | Forks: 0

# AI评估与测试精通工作坊 **一套包含20个模块的课程体系，用于构建、衡量和交付生产级AI系统——而非演示原型。** 涵盖完整评估生命周期：指标设计、框架应用（FutureAGI、Ragas、DeepEval、LangSmith、Promptfoo）、数据集构建、CI/CD质量门禁、红队测试、安全防护以及认证体系。 ## 目标受众 - **AI顾问**：为客户交付自动化系统时，面对“这东西真能用吗？”的质问 - **技术实践者**：从原型转向生产环境，受够了回归测试漏洞频出 - **培训组织者**：为企业构建AI评估素养培训体系 - **创始人及工程负责人**：需要为AI产品建立可辩护的质量指标前置条件：基本了解大语言模型（Claude、GPT-4等），熟悉Python或愿意阅读代码 ## 替代方案对比传统“AI评估”通常陷入两种失败模式： 1. **主观判断** ——“看着没问题，发布吧”——用户出现预期外操作时立即在生产环境中崩溃 2. **供应商演示** ——“FutureAGI在我们测试中得分0.87”——却无人理解测量标准、数据集依据，或0.87的实际意义本课程提供实践指导：选择正确指标、构建正确数据集、在CI中自动化正确测试，并在用户之前完成红队测试 ## 20模块课程体系 **总时长：约17.5小时内容。支持自主学习或分期直播课程** ### 第一部分——基础篇（模块1-4） | # | 模块 | 级别 | 时长 | |---|--------|-------|------| | 01 | [AI评估导论——为何你的AI需要测试](modules/01-introduction-to-ai-evaluation.md) | 初级 | ~55分钟 | | 02 | [入门准备——搭建评估环境](modules/02-getting-started-eval-environment.md) | 初中级 | ~55分钟 | | 03 | [核心指标与测量框架](modules/03-core-metrics-and-frameworks.md) | 中级 | ~55分钟 | | 04 | [FutureAGI平台——完全设置与精通](modules/04-futureagi-platform-deep-dive.md) | 中级 | ~55分钟 | ### 第二部分——框架深研（模块5-9） | # | 模块 | 级别 | 时长 | |---|--------|-------|------| | 05 | [Ragas——RAG评估框架深度解析](modules/05-ragas-rag-evaluation.md) | 中级 | ~55分钟 | | 06 | [DeepEval——全栈LLM应用统一测试](modules/06-deepeval-unified-testing.md) | 中级 | ~55分钟 | | 07 | [20大自动化场景——完整评估协议](modules/07-top20-automations-eval-protocols.md) | 中高级 | ~60分钟 | | 08 | [LangSmith——LangChain应用集成监控](modules/08-langsmith-monitoring.md) | 中级 | ~50分钟 | | 09 | [Promptfoo——快速提示词测试与A/B对比](modules/09-promptfoo-rapid-testing.md) | 中级 | ~45分钟 | ### 第三部分——应用评估（模块10-14） | # | 模块 | 级别 | 时长 | |---|--------|-------|------| | 10 | [构建评估数据集——测试真正重要的用例](modules/10-building-eval-datasets.md) | 中级 | ~50分钟 | | 11 | [通信自动化评估——自动化1-5深度解析](modules/11-communication-automation-evals.md) | 中级 | ~50分钟 | | 12 | [文档自动化评估——自动化6-10](modules/12-documentation-automation-evals.md) | 中级 | ~50分钟 | | 13 | [内容自动化评估——自动化11-15](modules/13-content-automation-evals.md) | 中级 | ~50分钟 | | 14 | [分析自动化评估——自动化16-20](modules/14-analysis-automation-evals.md) | 中级 | ~50分钟 | ### 第四部分——生产与安全（模块15-17） | # | 模块 | 级别 | 时长 | |---|--------|-------|------| | 15 | [CI/CD流水线集成——AI自动化质量门禁](modules/15-cicd-pipeline-integration.md) | 高级 | ~55分钟 | | 16 | [模拟与红队测试——生产环境前的失效预测](modules/16-simulation-red-teaming.md) | 高级 | ~55分钟 | | 17 | [安全防护与测试——生产环境保护](modules/17-guardrails-safety-testing.md) | 高级 | ~50分钟 | ### 第五部分——教学与认证（模块18-20） | # | 模块 | 级别 | 时长 | |---|--------|-------|------| | 18 | [工作坊课程设计——AI评估教学法](modules/18-workshop-curriculum-design.md) | 全级别 | ~50分钟 | | 19 | [案例研究——避免灾难的真实实施案例](modules/19-case-studies.md) | 全级别 | ~50分钟 | | 20 | [评估与认证](modules/20-assessment-and-certification.md) | 全级别 | ~45分钟 | ## 快速入门指南 ### 自主学习者 1. 阅读模块01，重构对“评估”的认知框架 2. 通过模块02搭建环境（约1小时） 3. 根据技术栈从模块04-09中选择一个框架： - 使用LangChain/LangGraph？→ LangSmith（模块08） - 构建RAG系统？→ Ragas（模块05） - 熟悉pytest？→ DeepEval（模块06） - 需要快速提示词A/B测试？→ Promptfoo（模块09） - 需要统一生命周期平台？→ FutureAGI（模块04） 4. 将模块07的协议应用于核心自动化场景 5. 通过模块15集成到CI流程 ### 工作坊组织者 1. 优先阅读模块18（工作坊课程设计）——这是元模块 2. 2小时入门课程：使用模块01+03+05/06/09中的实操部分 3. 1天强化训练：模块01-04+07+15 4. 多周培训计划：按完整20模块顺序进行 ### 部署评估顾问 1. 模块19（案例研究）——了解成功模式与失败案例 2. 模块16（模拟与红队测试）——多数部署忽略的关键环节 3. 模块07（20大自动化场景）——定位你的自动化场景，复制评估协议 ## 差异化优势多数AI评估内容是**框架文档**（“这是API”）。本课程强调**实践优先**： - 每个框架模块都包含*不适用*场景说明 - 每个指标都附带其无法捕获的失效模式 - 模块11-14为20个具体业务自动化提供完整评估协议——可直接复制、适配、部署 - 模块15-17涵盖供应商演示省略的生产现实（CI门禁、红队测试、安全防护） ## 配套资料 - **工作坊方法论与非技术框架**：[ai-systems-thinking-workshop](https://github.com/otmanm/ai-systems-thinking-workshop)——针对非技术操作者的2小时上游工作坊，讲解上下文与提示词的差异及AI就绪度 ## 许可协议 [MIT](LICENSE)——欢迎使用、复刻、基于此举办你自己的工作坊。感谢注明出处，但不强制要求。

标签：AI工作坊, AI测试, AI认证, AI评估, Apex, DeepEval, DLL 劫持, FutureAGI, LangSmith, LLM测试, Promptfoo, Python, Ragas, SEO优化, 人工智能, 在线学习, 大语言模型, 技术栈, 指标测量, 数据管道, 数据集构建, 无后门, 机器学习, 框架工具, 模块化课程, 生产级AI系统, 用户模式Hook绕过, 评估框架, 课程培训, 质量控制, 质量门, 软件工程, 逆向工具