IndranilPaul007/Team-Aerovista-Redrob-AI-Pipeline
GitHub: IndranilPaul007/Team-Aerovista-Redrob-AI-Pipeline
一个两阶段 AI 候选人检索流水线,通过关键词密度预排序与轻量语义向量搜索的组合,在3分钟内从10万+简历中精准筛选出 Top 100 候选人。
Stars: 0 | Forks: 0
# 🚀 智能候选人发现流水线
**Redrob 数据与 AI 挑战赛** | **Team Aerovista** 




## 🧠 架构:密度优先,语义其次
传统的候选人匹配要么依赖扁平的关键词搜索(准确率低),要么依赖庞大的 LLM prompt(计算成本高,超时风险高)。我们设计了一个双阶段流水线,将繁重的神经网络计算严格保留给最顶尖的可行候选人。
### 🌊 流水线流程
`[原始 JSONL (10万)]` ➡️ `[多层防火墙]` ➡️ `[密度预排序器]` ➡️ `[all-MiniLM-L6-v2 向量引擎]` ➡️ `[动态理由生成器]` ➡️ `[最终 Top 100 CSV]`
## 🛡️ 核心创新
### 1. 确定性多层防火墙
在任何 tensor 计算之前,系统就会通过行为和结构防火墙积极清除噪声数据:
* **“陷阱”协议:** 立即识别并丢弃伪装成技术人才的非工程类诱饵 profile(例如 HR Manager、Civil Engineer)。
* **蜜罐检测器:** 通过算法标记数学上不可能存在的 profile(例如,声称拥有“专家”级别技能但持续时间仅为 0 个月的候选人)。
* **咨询与地域拦截:** 严格过滤以强制执行 JD 地域集群,并排除活跃的咨询公司员工。
### 2. 阶段 1:关键词密度引擎
为了防止向量化过程超时,我们实现了一个自定义的轻量级“零相关性下限”。
* 该引擎会扫描每份简历的原始非结构化文本(摘要 + 职位描述)。
* 它会计算高度特定的 JD 目标的精确频率(例如 `Pinecone`、`RAG`、`Milvus`、`NDCG`)。
* 只有**密度最高的前 10,000 份 profile** 才能进入阶段 2。
### 3. 阶段 2:语义向量排序与高斯衰减
前 1 万名高密度候选人池将使用通过本地运行 `sentence-transformers` 的 `all-MiniLM-L6-v2` 转换为高维 embedding。
* **向量相似度:** 对目标 Job Description embedding 应用余弦相似度。
* **高斯经验曲线:** 系统不采用硬性的经验截止线,而是使用钟形曲线修正器,对落在目标 5-9 年经验区间之外的候选人进行数学上的惩罚:
Penalty = e^{-\frac{(x - \mu)^2}{4.0}}
标签:BM25算法, PyTorch, 人力资源科技, 人工智能, 信息检索, 凭据扫描, 双阶段流水线, 时序数据库, 用户模式Hook绕过, 语义向量搜索, 逆向工具