mrgyatso/resume-screening-agent
GitHub: mrgyatso/resume-screening-agent
一个基于AI的简历筛选智能体,通过动态评估标准和防御机制,提升招聘效率并降低安全与合规风险。
Stars: 0 | Forks: 0
# 简历筛选智能体
这是一个可工作的智能体,它能替代为一家美国精品招聘机构服务的离岸简历筛选业务流程外包。它能在大约90秒内读取60份入站简历,并与活跃的客户职位需求进行比对,为每个评分决策生成可验证的逐项引用依据,抵御提示注入和隐藏文本攻击,阻止合规信息泄露,并为每位通过筛选的候选人撰写面试准备材料。
## 60秒速览
| 现状(离岸BPO) | 使用此智能体后 |
|---|---|
| 固定月费 $1,900 | 全包月费 ~$450 (Anthropic API + 托管) |
| 36–48小时周转 | 每日300份简历 < 30分钟 |
| 电子表格式理由,无审计 | 每个评分决策附引用依据,每位候选人有强制升级跟踪记录 |
| 上月Maya日程上有3场明显不匹配的面试 | 幻觉引用在到达招聘人员前会触发严格拦截 |
| 隐藏文本和提示注入绕过筛选 | 三层防御(正则表达式 + LLM二次筛查)在预检阶段即捕获 |
招聘人员仍然对每个面试决策拥有最终决定权。智能体消除的是低质量层级,而非判断层级。设计上符合《公平信用报告法》可防御标准。
## 演示内容展示
- **60位候选队列**,跨3家虚构客户(Pelican Health, Trailhead Logistics, Lumenroom Analytics)的6个活跃职位需求
- **每位候选人全流程可追溯**:评估标准标签 → 带黄色高亮引用依据的评分卡 → 如适用则有注入/合规提示横幅 → 最终决策 → 面试摘要(仅对 `interview` 决策解锁)
- **五条强制升级触发线**:`injection_attack`, `citation_hallucinated`, `compliance_block`, `low_confidence`, `max_iterations`
- **六种手工制作的注入测试用例**(白色文字指令、简历内短语攻击、微小字体载荷),加上通用LLM撰写的简历,由评估标准层单独过滤
## 与关键词筛选器的区别
1. **基于职位描述推导的评估标准,逐候选人评分。** 没有全局技能图谱。智能体读取职位需求,起草5-7项加权标准,并据此评分。而非针对一份关键词列表——LLM撰写的简历早已在关键词重叠度上对其进行博弈(马里兰大学2026年研究:AI筛选器基于关键词重叠度选择LLM撰写的简历的比例高达95-97%)。
2. **每项评分都有逐字引用依据追溯到简历原文。** 一个确定性的后置检查要求引用子字符串必须出现在解析后的简历文本中。幻觉引用 → 强制升级。没有静默的“模型这么说的”。
3. **注入防御在评分前运行。** 隐藏文本正则表达式捕获白底白字和微小字体。短语正则表达式捕获明显的“忽略之前的指令”。一个基于Haiku模型的二次筛查仅对正则标记的输入运行,保持成本低廉且可控。
4. **合规性门禁位于评分和面试摘要之间。** 日期计算、受保护群体正则表达式、《就业年龄歧视法》风险模式。招聘人员绝不会看到一份引用候选人毕业年份作为证据的摘要。
## 架构
```
9 tools, orchestrated:
lookup_requisition → derive_rubric (Sonnet, cached) → parse_resume →
check_injection_defense (preflight, 3 layers) →
score_resume (Haiku + deterministic citation post-check) →
lookup_candidate_history → check_compliance →
build_interview_brief (Sonnet, gated on weighted_total >= hire_threshold) →
final_decision
```
技术栈:Next.js 15, TypeScript, Tailwind, `@anthropic-ai/sdk`, Zod。使用Sonnet 4.6生成评估标准与摘要,Haiku 4.5用于评分及受控的注入二次筛查。端口3032。
完整架构与Zod模式:[`research/phase2-architecture.md`](./research/phase2-architecture.md)。
## 运行
```
npm install
cp .env.example .env # add ANTHROPIC_API_KEY
npm run dev # http://localhost:3032
```
在队列视图中点击 **Run batch** 以筛选全部60位候选人。
## 评估
```
npm run eval
```
通过标准来自 `research/phase2-architecture.md` § 4.6:
- `compliance_leak_rate == 0`(不可协商)
- `injection_catch_rate >= 5/6`(跨6个注入测试用例)
- `citation_verifiable_rate >= 0.95`
- 单个候选人p95延迟 < 9000毫秒
评估会输出每个决策的精确率/召回率和一个遗漏列表。可将其用作提示调整的诊断工具。
## 薄弱环节(特意列出)
这是第一版。诚实地列出仍有些模糊的部分:
- **PDF引用偏移是尽力而为。** v1使用逐字子字符串匹配作为主要信号;字节偏移是次要的。生产版v2需要支持PDF坐标的引用。
- **LLM文本同质性启发式方法较保守。** 需要两个信号(n-gram重复度 + GPT化计数)。可调整。
- **合规性正则表达式仅捕获明显泄露。** 对于v1.1,针对ADEA风险的“Graduated 1987”需要一个日期计算层。
- **评估中未断言评估标准权重质量。** 评估检查的是标准*标签*与职位需求声明的必备项是否匹配;权重校准是v2的事项。
## 这不是什么
- 不是ATS替代品。演示中没有与Greenhouse / Lever / Workday集成;那是客户参与范围。
- 不是面向候选人的聊天机器人。该智能体不与候选人交谈(出于FCRA可防御性的刻意设计)。
- 不是视频面试工具。不同的演示,不同的赛道。
- 不是全局技能图谱运行时。评估标准是实时推导的,基于每个职位描述。
- 无持久化数据库。仅测试用JSON数据。
## Loom视频中引用的参考资料
- OWASP LLM Top-10 #1: 提示注入
- 2024-2025年针对HireVue, Workday, Greenhouse, Lever, Ashby的FCRA集体诉讼
- 马里兰大学2026年关于AI筛选器偏向LLM撰写简历的研究
## 许可证
MIT。
标签:AI安全, Chat Copilot, ntdll.dll, 业务流程自动化, 人力资源科技, 人工智能代理, 企业服务, 候选人评估, 反幻觉技术, 合规科技, 安全AI, 安全护栏, 审计追踪, 性能优化, 成本节约, 招聘AI, 招聘自动化, 提示注入防御, 效率提升, 数据隐私, 数据验证, 检测绕过, 源代码安全, 简历筛选, 职位匹配, 自动化攻击, 自动化评分, 语言模型应用, 面试准备生成