productfoundry101/ai-evals-bootcamp

GitHub: productfoundry101/ai-evals-bootcamp

通过Claude Code驱动的21天互动课程,教产品经理系统化评估AI产品在生产中的质量与可靠性。

Stars: 8 | Forks: 1

# 🧪 AI Evals 训练营 这是一个为期 21 天的独一无二的互动课程,旨在教导产品人员如何构建和评估生产可用的 AI 系统 —— ✨ 通过亲身实践 ✨ 没有幻灯片。没有视频。你只需克隆这个仓库,打开 Claude Code,它就会成为你的私人 AI 评估导师:每次教授一个概念,使用真实数据集引导你完成练习,并评估你的产品决策。 ## 🙋 谁应该学习本课程 本课程专为希望交付真正可靠、可扩展且超越直觉的 AI 功能的产品从业者而设计。 **主要受众:产品经理**。如果你正在交付 AI 功能,并希望获得一种系统化、可重复的方法来确认产品是否真正正常运行,本课程非常适合你。同样适用于: - 正在向 AI 专注角色转型的副产品经理和组长 - 同时负责产品和质量的创始人与独立开发者 - 负责监督 AI 团队并制定评估策略的产品负责人 - 希望在工程指标和产品决策之间建立桥梁的技术型产品经理 如果你曾经问过自己*“我怎么知道这个 AI 是否真的有效?”* —— 那么这门课就是为你准备的。 ## 🎯 你将学到什么 - **判断你的 AI 是否真正有效** —— 不仅是在演示中有效,而是在生产环境中持续、稳定地对所有用户有效 - **在用户之前发现故障** —— 当 AI 出现异常时,你将准确知道该去哪里查找以及该问什么问题 - **编写团队能据以构建的质量标准** —— 在开发开始前,用清晰、可测试的标准取代模糊的需求 - **捕捉 AI 对某些用户失效的情况** —— 在某些客户群体获得较差体验并演变成大问题之前,提前发现端倪 - **运行能真正提供洞见的 AI 实验** —— 避免那些会让 AI 测试结果产生误导的陷阱 - **基于框架而非直觉做出发布决策** —— 为你负责的每一个 AI 功能建立一套可重复的发布/暂缓流程 - **让你的团队和供应商负起责任** —— 在任何 AI 评审中都能提出正确的问题,无论技术性有多强 - **建立质量是每个人的责任的文化** —— 将评估从最后一刻的复选框转变为全团队的习惯 ## ✨ 课程特色 - **使用真实数据亲自动手** —— 每一课都包含一个供你亲自分析的合成数据集;绝非纸上谈兵的示例 - **由你来思考** —— Claude 按需执行计算;由你来主导分析并得出结论 - **PM 决策点** —— 每一课都以你编写建议或工件结束;Claude 会根据评分标准对其进行评估 - **自适应辅导** —— Claude 会适应你的节奏;经验丰富的从业者可以快速推进,新手则会获得更多示例 - **每天约 30-40 分钟** —— 专为在职专业人士设计;每天专注于一个课程 - **进度在本地保存** —— 记录在 `progress/progress.json` 中,已被 gitignore 忽略,永远不会离开你的设备 ## 🚀 快速入门 **已经设置好了?直接跳到对应步骤:** - 不确定是否已安装 Node.js 或 Claude Code? → [步骤 1](#step-1--check-your-setup) - 已有 Node.js 但没有 Claude Code? → [步骤 2](#step-2--install-claude-code) - 已安装 Claude Code? → [步骤 3](#step-3--get-the-course-files) - 已克隆文件? → [步骤 4](#step-4--start-the-course) ### 步骤 1 —— 检查你的设置 **打开终端。** 这是课程运行的地方。 - **Mac:** 在 Spotlight 中搜索“Terminal”,或按 `` Cmd+Space `` 并输入 Terminal - **Cursor:** 前往 View → Terminal,或按 `` Ctrl+` `` (Windows) / `` Cmd+` `` (Mac) - **Windows:** 在开始菜单中搜索“PowerShell” **检查你是否安装了 Node.js:** ``` node --version ``` 如果你看到了版本号,说明你已经安装了 Node.js。如果没有,请在继续之前从 [nodejs.org](https://nodejs.org) 下载(使用 LTS 版本)。 **检查你是否安装了 Claude Code:** ``` claude --version ``` 如果你看到了版本号,请跳至 [步骤 3](#step-3--get-the-course-files)。如果没有,请继续执行步骤 2。 **创建一个 Anthropic 账户**(免费),网址为 [claude.ai](https://claude.ai)(如果你还没有的话)—— 你将需要它来对 Claude Code 进行身份验证。 ### 步骤 2 —— 安装 Claude Code ``` npm install -g @anthropic-ai/claude-code ``` 验证是否安装成功: ``` claude --version ``` 如果你看到了版本号,一切就绪。 ✅ ### 步骤 3 —— 获取课程文件 ``` git clone https://github.com/productfoundry101/ai-evals-bootcamp.git cd ai-evals-bootcamp ``` **如果你使用的是 Cursor:** 前往 File → Open Folder 并选择 `ai-evals-bootcamp` 文件夹。你的课程文件 —— 课程、数据集等等 —— 将显示在左侧边栏中。这些都是存在于你电脑上的真实文件;你可以随时在 Excel、Numbers 或 Google Sheets 中打开这些 CSV 文件。 ### 步骤 4 —— 开始课程 确保你位于课程文件夹内,然后运行: ``` claude ``` 你将看到一个 `>` 提示符 —— 这意味着成功了。输入 `go`,你的导师将自我介绍并开始第 1 天的课程。 ### 🔄 首次学习后再次进入 每次你回来继续课程时 —— 无论是第二天还是在任何休息之后 —— 在终端中运行这两个命令: ``` cd ai-evals-bootcamp claude ``` 你的进度会在每节课后自动保存。导师将从你上次停下的地方继续。 ### 🔧 故障排除 | 问题 | 解决方法 | |---------|-----| | `claude: command not found` | 再次运行 `npm install -g @anthropic-ai/claude-code`,然后重启终端 | | 安装时出现权限错误 | 改为直接从 [nodejs.org](https://nodejs.org) 下载 Node.js | | 运行 `claude` 后出现空白屏幕 | 你已经进入了 —— 只需输入 `go` 即可开始 | | Claude 没有以导师身份进行自我介绍 | 确保你是从 `ai-evals-bootcamp` 文件夹内部运行 `claude` 的,而不是其父目录 | | Claude 请求批准文件写入 | 输入 `yes` —— 它需要此权限来保存你的进度 | | 课程中途卡住 | 输入 `resume` —— 导师将重新读取你的进度并从你上次停下的地方继续 | ## 📅 课程结构 21 天。3 周。每天一课。 ### 第 1 周 —— 你的评估基础(第 1-7 天) | 天数 | 课程 | 核心技能 | |-----|--------|------------| | D1 | Pipeline Mapping | Pipeline 阶段、非确定性、读取 traces | | D2 | Failure Surface Mapping | 评估表面图、故障层、覆盖盲区 | | D3 | Error Analysis | 开放编码、轴向编码、饱和度、分诊 | | D4 | Thinking in Distributions | 先看分布形态再看深度、pass@k、reliable@k、一致性差距 | | D5 | Grader Types | 基于代码的评分器、基于模型的评分器、人工评分器;分层策略 | | D6 | LLM-as-Judge | 校准陷阱、Critique Shadowing、故障模式、元评估 | | D7 | Golden Datasets | 三大数据来源、数据污染、数据集生命周期 | ### 第 2 周 —— 规模化指标与度量(第 8-14 天) | 天数 | 课程 | 核心技能 | |-----|--------|------------| | D8 | RAG Evaluation | Precision@k、faithfulness、答案相关性、上下文召回率 | | D9 | Hallucination Detection | 检测策略、grounding、引用评估 | | D10 | Release Criteria | 防护栏指标 vs 优化指标、发布/暂缓阈值 | | D11 | Metric Design | 指标权衡、评估成本、覆盖策略 | | D12 | Fairness & Subgroups | 子群体切片、差异检测、实践中的公平性 | | D13 | Eval-Driven Development | 将评估作为产品规范、回归测试、评估节奏 | | D14 | Observability | 日志记录、tracing、需要检测的内容及原因 | ### 第 3 周 —— 发布、监控与扩展(第 15-21 天) | 天数 | 课程 | 核心技能 | |-----|--------|------------| | D15 | Agent Evaluation | 多步 pipelines、工具使用、trajectory 评估 | | D16 | AI Experiments | LLM A/B 测试、方差、混淆因素 | | D17 | Launch Readiness | 上线前检查清单、漂移检测、事件响应 | | D18 | Red Teaming | 威胁建模、对抗性 prompts、压力测试 | | D19 | Ship Decisions | 将评估信号综合为进行/不进行的建议 | | D20 | Regulatory Context | AI Act、责任、产品人员需要了解的内容 | | D21 | Eval Culture | 评估制度化、团队认同、将评估作为一种产品实践 | ## 📁 仓库中包含什么 ``` lessons/ Lesson content — concepts, exercises, decision points (D1-Pipeline-Mapping.md through D21-Eval-Culture.md) exercises/ CSV datasets you'll analyze during exercises tutor/ Session protocol and scoring rubrics (Claude's tutor instructions) progress/ Your local progress — gitignored, never leaves your machine CLAUDE.md Course configuration — Claude reads this on startup ``` ## 📚 延伸阅读与致谢 本课程建立在众多公开分享其教学成果的实践者的肩膀之上。如果你想进一步深入学习,以下是对本课程内容影响最大的资料来源: - **[Hamel Husain](https://hamel.dev)** —— 评估方法学、Error Analysis、LLM-as-judge - **[Shreya Shankar](https://www.sh-reya.com)** —— LLM 评判校准研究 - **[Lenny's Newsletter](https://www.lennysnewsletter.com)** —— 面向 PM 的评估框架(“Beyond vibe checks” 及相关文章) - **[Aman Khan](https://amankhan1.substack.com)** —— AI PM 评估视角 - **[Tal Raviv](https://talraviv.co)** —— 实用的 PM 评估示例 - **[AI Analyst Lab](https://aianalystlab.ai)** —— 启发了我们将评估构建为以产品为中心的体系(而非以分析师为中心),并将 Error Analysis 作为所有其他技术的基础 - **[RAGAS](https://docs.ragas.io)** —— RAG 评估框架 - **[OWASP LLM Top 10](https://genai.owasp.org/llm-top-10/)** —— LLM 系统的对抗性攻击分类 - **[《Building AI Product Sense with a Custom Tutor》 作者 Aman Khan](https://amankhan1.substack.com/p/building-ai-product-sense-with-a)** —— 启发了我们使用 Claude Code 作为你的 AI 导师的灵感 ## 📄 许可证 [CC BY-NC-SA 4.0](LICENSE) —— 可免费用于非商业用途,在使用时需注明出处。
标签:AI产品经理, AI代理, AI公平性, AI安全, AI度量, AI指标体系, AI测试, AI系统可靠性, AI红队测试, AI评估, AI质量保障, Chat Copilot, Clair, Claude, CVE检测, DLL 劫持, Kubernetes 安全, LLM测试, MITM代理, MLOps, 互动课程, 产品发布, 产品经理, 人工智能, 公平性评估, 可观察性, 基线管理, 大语言模型, 开源教程, 技术教程, 指标评估, 教学课程, 智能体测试, 机器学习运维, 模型评估, 模型鲁棒性, 测试框架, 生产环境AI, 用户模式Hook绕过, 网络安全研究, 训练营, 配置审计, 防御加固