IndranilPaul007/Team-Aerovista-Redrob-AI-Pipeline

GitHub: IndranilPaul007/Team-Aerovista-Redrob-AI-Pipeline

一个两阶段 AI 候选人检索流水线,通过关键词密度预排序与轻量语义向量搜索的组合,在3分钟内从10万+简历中精准筛选出 Top 100 候选人。

Stars: 0 | Forks: 0

# 🚀 智能候选人发现流水线 **Redrob 数据与 AI 挑战赛** | **Team Aerovista** ![Python Version](https://img.shields.io/badge/Python-3.9%2B-blue) ![PyTorch](https://img.shields.io/badge/PyTorch-Optimized-red) ![Sentence Transformers](https://img.shields.io/badge/Sentence--Transformers-all--MiniLM--L6--v2-orange) ![License](https://img.shields.io/badge/License-MIT-green) ![Runtime](https://img.shields.io/badge/Runtime-2m_42s-brightgreen) ## 🧠 架构:密度优先,语义其次 传统的候选人匹配要么依赖扁平的关键词搜索(准确率低),要么依赖庞大的 LLM prompt(计算成本高,超时风险高)。我们设计了一个双阶段流水线,将繁重的神经网络计算严格保留给最顶尖的可行候选人。 ### 🌊 流水线流程 `[原始 JSONL (10万)]` ➡️ `[多层防火墙]` ➡️ `[密度预排序器]` ➡️ `[all-MiniLM-L6-v2 向量引擎]` ➡️ `[动态理由生成器]` ➡️ `[最终 Top 100 CSV]` ## 🛡️ 核心创新 ### 1. 确定性多层防火墙 在任何 tensor 计算之前,系统就会通过行为和结构防火墙积极清除噪声数据: * **“陷阱”协议:** 立即识别并丢弃伪装成技术人才的非工程类诱饵 profile(例如 HR Manager、Civil Engineer)。 * **蜜罐检测器:** 通过算法标记数学上不可能存在的 profile(例如,声称拥有“专家”级别技能但持续时间仅为 0 个月的候选人)。 * **咨询与地域拦截:** 严格过滤以强制执行 JD 地域集群,并排除活跃的咨询公司员工。 ### 2. 阶段 1:关键词密度引擎 为了防止向量化过程超时,我们实现了一个自定义的轻量级“零相关性下限”。 * 该引擎会扫描每份简历的原始非结构化文本(摘要 + 职位描述)。 * 它会计算高度特定的 JD 目标的精确频率(例如 `Pinecone`、`RAG`、`Milvus`、`NDCG`)。 * 只有**密度最高的前 10,000 份 profile** 才能进入阶段 2。 ### 3. 阶段 2:语义向量排序与高斯衰减 前 1 万名高密度候选人池将使用通过本地运行 `sentence-transformers` 的 `all-MiniLM-L6-v2` 转换为高维 embedding。 * **向量相似度:** 对目标 Job Description embedding 应用余弦相似度。 * **高斯经验曲线:** 系统不采用硬性的经验截止线,而是使用钟形曲线修正器,对落在目标 5-9 年经验区间之外的候选人进行数学上的惩罚: Penalty = e^{-\frac{(x - \mu)^2}{4.0}}
标签:BM25算法, PyTorch, 人力资源科技, 人工智能, 信息检索, 凭据扫描, 双阶段流水线, 时序数据库, 用户模式Hook绕过, 语义向量搜索, 逆向工具