otmanm/ai-evaluation-workshop

GitHub: otmanm/ai-evaluation-workshop

这是一个用于构建、衡量和交付生产级AI系统的20模块课程体系,旨在解决AI系统在生产环境中可靠性不足的问题。

Stars: 0 | Forks: 0

# AI评估与测试精通工作坊 **一套包含20个模块的课程体系,用于构建、衡量和交付生产级AI系统——而非演示原型。** 涵盖完整评估生命周期:指标设计、框架应用(FutureAGI、Ragas、DeepEval、LangSmith、Promptfoo)、数据集构建、CI/CD质量门禁、红队测试、安全防护以及认证体系。 ## 目标受众 - **AI顾问**:为客户交付自动化系统时,面对“这东西真能用吗?”的质问 - **技术实践者**:从原型转向生产环境,受够了回归测试漏洞频出 - **培训组织者**:为企业构建AI评估素养培训体系 - **创始人及工程负责人**:需要为AI产品建立可辩护的质量指标 前置条件:基本了解大语言模型(Claude、GPT-4等),熟悉Python或愿意阅读代码 ## 替代方案对比 传统“AI评估”通常陷入两种失败模式: 1. **主观判断** ——“看着没问题,发布吧”——用户出现预期外操作时立即在生产环境中崩溃 2. **供应商演示** ——“FutureAGI在我们测试中得分0.87”——却无人理解测量标准、数据集依据,或0.87的实际意义 本课程提供实践指导:选择正确指标、构建正确数据集、在CI中自动化正确测试,并在用户之前完成红队测试 ## 20模块课程体系 **总时长:约17.5小时内容。支持自主学习或分期直播课程** ### 第一部分——基础篇(模块1-4) | # | 模块 | 级别 | 时长 | |---|--------|-------|------| | 01 | [AI评估导论——为何你的AI需要测试](modules/01-introduction-to-ai-evaluation.md) | 初级 | ~55分钟 | | 02 | [入门准备——搭建评估环境](modules/02-getting-started-eval-environment.md) | 初中级 | ~55分钟 | | 03 | [核心指标与测量框架](modules/03-core-metrics-and-frameworks.md) | 中级 | ~55分钟 | | 04 | [FutureAGI平台——完全设置与精通](modules/04-futureagi-platform-deep-dive.md) | 中级 | ~55分钟 | ### 第二部分——框架深研(模块5-9) | # | 模块 | 级别 | 时长 | |---|--------|-------|------| | 05 | [Ragas——RAG评估框架深度解析](modules/05-ragas-rag-evaluation.md) | 中级 | ~55分钟 | | 06 | [DeepEval——全栈LLM应用统一测试](modules/06-deepeval-unified-testing.md) | 中级 | ~55分钟 | | 07 | [20大自动化场景——完整评估协议](modules/07-top20-automations-eval-protocols.md) | 中高级 | ~60分钟 | | 08 | [LangSmith——LangChain应用集成监控](modules/08-langsmith-monitoring.md) | 中级 | ~50分钟 | | 09 | [Promptfoo——快速提示词测试与A/B对比](modules/09-promptfoo-rapid-testing.md) | 中级 | ~45分钟 | ### 第三部分——应用评估(模块10-14) | # | 模块 | 级别 | 时长 | |---|--------|-------|------| | 10 | [构建评估数据集——测试真正重要的用例](modules/10-building-eval-datasets.md) | 中级 | ~50分钟 | | 11 | [通信自动化评估——自动化1-5深度解析](modules/11-communication-automation-evals.md) | 中级 | ~50分钟 | | 12 | [文档自动化评估——自动化6-10](modules/12-documentation-automation-evals.md) | 中级 | ~50分钟 | | 13 | [内容自动化评估——自动化11-15](modules/13-content-automation-evals.md) | 中级 | ~50分钟 | | 14 | [分析自动化评估——自动化16-20](modules/14-analysis-automation-evals.md) | 中级 | ~50分钟 | ### 第四部分——生产与安全(模块15-17) | # | 模块 | 级别 | 时长 | |---|--------|-------|------| | 15 | [CI/CD流水线集成——AI自动化质量门禁](modules/15-cicd-pipeline-integration.md) | 高级 | ~55分钟 | | 16 | [模拟与红队测试——生产环境前的失效预测](modules/16-simulation-red-teaming.md) | 高级 | ~55分钟 | | 17 | [安全防护与测试——生产环境保护](modules/17-guardrails-safety-testing.md) | 高级 | ~50分钟 | ### 第五部分——教学与认证(模块18-20) | # | 模块 | 级别 | 时长 | |---|--------|-------|------| | 18 | [工作坊课程设计——AI评估教学法](modules/18-workshop-curriculum-design.md) | 全级别 | ~50分钟 | | 19 | [案例研究——避免灾难的真实实施案例](modules/19-case-studies.md) | 全级别 | ~50分钟 | | 20 | [评估与认证](modules/20-assessment-and-certification.md) | 全级别 | ~45分钟 | ## 快速入门指南 ### 自主学习者 1. 阅读模块01,重构对“评估”的认知框架 2. 通过模块02搭建环境(约1小时) 3. 根据技术栈从模块04-09中选择一个框架: - 使用LangChain/LangGraph?→ LangSmith(模块08) - 构建RAG系统?→ Ragas(模块05) - 熟悉pytest?→ DeepEval(模块06) - 需要快速提示词A/B测试?→ Promptfoo(模块09) - 需要统一生命周期平台?→ FutureAGI(模块04) 4. 将模块07的协议应用于核心自动化场景 5. 通过模块15集成到CI流程 ### 工作坊组织者 1. 优先阅读模块18(工作坊课程设计)——这是元模块 2. 2小时入门课程:使用模块01+03+05/06/09中的实操部分 3. 1天强化训练:模块01-04+07+15 4. 多周培训计划:按完整20模块顺序进行 ### 部署评估顾问 1. 模块19(案例研究)——了解成功模式与失败案例 2. 模块16(模拟与红队测试)——多数部署忽略的关键环节 3. 模块07(20大自动化场景)——定位你的自动化场景,复制评估协议 ## 差异化优势 多数AI评估内容是**框架文档**(“这是API”)。本课程强调**实践优先**: - 每个框架模块都包含*不适用*场景说明 - 每个指标都附带其无法捕获的失效模式 - 模块11-14为20个具体业务自动化提供完整评估协议——可直接复制、适配、部署 - 模块15-17涵盖供应商演示省略的生产现实(CI门禁、红队测试、安全防护) ## 配套资料 - **工作坊方法论与非技术框架**:[ai-systems-thinking-workshop](https://github.com/otmanm/ai-systems-thinking-workshop)——针对非技术操作者的2小时上游工作坊,讲解上下文与提示词的差异及AI就绪度 ## 许可协议 [MIT](LICENSE)——欢迎使用、复刻、基于此举办你自己的工作坊。感谢注明出处,但不强制要求。
标签:AI工作坊, AI测试, AI认证, AI评估, Apex, DeepEval, DLL 劫持, FutureAGI, LangSmith, LLM测试, Promptfoo, Python, Ragas, SEO优化, 人工智能, 在线学习, 大语言模型, 技术栈, 指标测量, 数据管道, 数据集构建, 无后门, 机器学习, 框架工具, 模块化课程, 生产级AI系统, 用户模式Hook绕过, 评估框架, 课程培训, 质量控制, 质量门, 软件工程, 逆向工具