otmanm/ai-evaluation-workshop
GitHub: otmanm/ai-evaluation-workshop
这是一个用于构建、衡量和交付生产级AI系统的20模块课程体系,旨在解决AI系统在生产环境中可靠性不足的问题。
Stars: 0 | Forks: 0
# AI评估与测试精通工作坊
**一套包含20个模块的课程体系,用于构建、衡量和交付生产级AI系统——而非演示原型。**
涵盖完整评估生命周期:指标设计、框架应用(FutureAGI、Ragas、DeepEval、LangSmith、Promptfoo)、数据集构建、CI/CD质量门禁、红队测试、安全防护以及认证体系。
## 目标受众
- **AI顾问**:为客户交付自动化系统时,面对“这东西真能用吗?”的质问
- **技术实践者**:从原型转向生产环境,受够了回归测试漏洞频出
- **培训组织者**:为企业构建AI评估素养培训体系
- **创始人及工程负责人**:需要为AI产品建立可辩护的质量指标
前置条件:基本了解大语言模型(Claude、GPT-4等),熟悉Python或愿意阅读代码
## 替代方案对比
传统“AI评估”通常陷入两种失败模式:
1. **主观判断** ——“看着没问题,发布吧”——用户出现预期外操作时立即在生产环境中崩溃
2. **供应商演示** ——“FutureAGI在我们测试中得分0.87”——却无人理解测量标准、数据集依据,或0.87的实际意义
本课程提供实践指导:选择正确指标、构建正确数据集、在CI中自动化正确测试,并在用户之前完成红队测试
## 20模块课程体系
**总时长:约17.5小时内容。支持自主学习或分期直播课程**
### 第一部分——基础篇(模块1-4)
| # | 模块 | 级别 | 时长 |
|---|--------|-------|------|
| 01 | [AI评估导论——为何你的AI需要测试](modules/01-introduction-to-ai-evaluation.md) | 初级 | ~55分钟 |
| 02 | [入门准备——搭建评估环境](modules/02-getting-started-eval-environment.md) | 初中级 | ~55分钟 |
| 03 | [核心指标与测量框架](modules/03-core-metrics-and-frameworks.md) | 中级 | ~55分钟 |
| 04 | [FutureAGI平台——完全设置与精通](modules/04-futureagi-platform-deep-dive.md) | 中级 | ~55分钟 |
### 第二部分——框架深研(模块5-9)
| # | 模块 | 级别 | 时长 |
|---|--------|-------|------|
| 05 | [Ragas——RAG评估框架深度解析](modules/05-ragas-rag-evaluation.md) | 中级 | ~55分钟 |
| 06 | [DeepEval——全栈LLM应用统一测试](modules/06-deepeval-unified-testing.md) | 中级 | ~55分钟 |
| 07 | [20大自动化场景——完整评估协议](modules/07-top20-automations-eval-protocols.md) | 中高级 | ~60分钟 |
| 08 | [LangSmith——LangChain应用集成监控](modules/08-langsmith-monitoring.md) | 中级 | ~50分钟 |
| 09 | [Promptfoo——快速提示词测试与A/B对比](modules/09-promptfoo-rapid-testing.md) | 中级 | ~45分钟 |
### 第三部分——应用评估(模块10-14)
| # | 模块 | 级别 | 时长 |
|---|--------|-------|------|
| 10 | [构建评估数据集——测试真正重要的用例](modules/10-building-eval-datasets.md) | 中级 | ~50分钟 |
| 11 | [通信自动化评估——自动化1-5深度解析](modules/11-communication-automation-evals.md) | 中级 | ~50分钟 |
| 12 | [文档自动化评估——自动化6-10](modules/12-documentation-automation-evals.md) | 中级 | ~50分钟 |
| 13 | [内容自动化评估——自动化11-15](modules/13-content-automation-evals.md) | 中级 | ~50分钟 |
| 14 | [分析自动化评估——自动化16-20](modules/14-analysis-automation-evals.md) | 中级 | ~50分钟 |
### 第四部分——生产与安全(模块15-17)
| # | 模块 | 级别 | 时长 |
|---|--------|-------|------|
| 15 | [CI/CD流水线集成——AI自动化质量门禁](modules/15-cicd-pipeline-integration.md) | 高级 | ~55分钟 |
| 16 | [模拟与红队测试——生产环境前的失效预测](modules/16-simulation-red-teaming.md) | 高级 | ~55分钟 |
| 17 | [安全防护与测试——生产环境保护](modules/17-guardrails-safety-testing.md) | 高级 | ~50分钟 |
### 第五部分——教学与认证(模块18-20)
| # | 模块 | 级别 | 时长 |
|---|--------|-------|------|
| 18 | [工作坊课程设计——AI评估教学法](modules/18-workshop-curriculum-design.md) | 全级别 | ~50分钟 |
| 19 | [案例研究——避免灾难的真实实施案例](modules/19-case-studies.md) | 全级别 | ~50分钟 |
| 20 | [评估与认证](modules/20-assessment-and-certification.md) | 全级别 | ~45分钟 |
## 快速入门指南
### 自主学习者
1. 阅读模块01,重构对“评估”的认知框架
2. 通过模块02搭建环境(约1小时)
3. 根据技术栈从模块04-09中选择一个框架:
- 使用LangChain/LangGraph?→ LangSmith(模块08)
- 构建RAG系统?→ Ragas(模块05)
- 熟悉pytest?→ DeepEval(模块06)
- 需要快速提示词A/B测试?→ Promptfoo(模块09)
- 需要统一生命周期平台?→ FutureAGI(模块04)
4. 将模块07的协议应用于核心自动化场景
5. 通过模块15集成到CI流程
### 工作坊组织者
1. 优先阅读模块18(工作坊课程设计)——这是元模块
2. 2小时入门课程:使用模块01+03+05/06/09中的实操部分
3. 1天强化训练:模块01-04+07+15
4. 多周培训计划:按完整20模块顺序进行
### 部署评估顾问
1. 模块19(案例研究)——了解成功模式与失败案例
2. 模块16(模拟与红队测试)——多数部署忽略的关键环节
3. 模块07(20大自动化场景)——定位你的自动化场景,复制评估协议
## 差异化优势
多数AI评估内容是**框架文档**(“这是API”)。本课程强调**实践优先**:
- 每个框架模块都包含*不适用*场景说明
- 每个指标都附带其无法捕获的失效模式
- 模块11-14为20个具体业务自动化提供完整评估协议——可直接复制、适配、部署
- 模块15-17涵盖供应商演示省略的生产现实(CI门禁、红队测试、安全防护)
## 配套资料
- **工作坊方法论与非技术框架**:[ai-systems-thinking-workshop](https://github.com/otmanm/ai-systems-thinking-workshop)——针对非技术操作者的2小时上游工作坊,讲解上下文与提示词的差异及AI就绪度
## 许可协议
[MIT](LICENSE)——欢迎使用、复刻、基于此举办你自己的工作坊。感谢注明出处,但不强制要求。
标签:AI工作坊, AI测试, AI认证, AI评估, Apex, DeepEval, DLL 劫持, FutureAGI, LangSmith, LLM测试, Promptfoo, Python, Ragas, SEO优化, 人工智能, 在线学习, 大语言模型, 技术栈, 指标测量, 数据管道, 数据集构建, 无后门, 机器学习, 框架工具, 模块化课程, 生产级AI系统, 用户模式Hook绕过, 评估框架, 课程培训, 质量控制, 质量门, 软件工程, 逆向工具