IndranilPaul007/Team-Aerovista-Redrob-AI-Pipeline

GitHub: IndranilPaul007/Team-Aerovista-Redrob-AI-Pipeline

一个两阶段 AI 候选人检索流水线，通过关键词密度预排序与轻量语义向量搜索的组合，在3分钟内从10万+简历中精准筛选出 Top 100 候选人。

Stars: 0 | Forks: 0

# 🚀 智能候选人发现流水线 **Redrob 数据与 AI 挑战赛** | **Team Aerovista** ![Python Version](https://img.shields.io/badge/Python-3.9%2B-blue) ![PyTorch](https://img.shields.io/badge/PyTorch-Optimized-red) ![Sentence Transformers](https://img.shields.io/badge/Sentence--Transformers-all--MiniLM--L6--v2-orange) ![License](https://img.shields.io/badge/License-MIT-green) ![Runtime](https://img.shields.io/badge/Runtime-2m_42s-brightgreen) ## 🧠 架构：密度优先，语义其次传统的候选人匹配要么依赖扁平的关键词搜索（准确率低），要么依赖庞大的 LLM prompt（计算成本高，超时风险高）。我们设计了一个双阶段流水线，将繁重的神经网络计算严格保留给最顶尖的可行候选人。 ### 🌊 流水线流程 `[原始 JSONL (10万)]` ➡️ `[多层防火墙]` ➡️ `[密度预排序器]` ➡️ `[all-MiniLM-L6-v2 向量引擎]` ➡️ `[动态理由生成器]` ➡️ `[最终 Top 100 CSV]` ## 🛡️ 核心创新 ### 1. 确定性多层防火墙在任何 tensor 计算之前，系统就会通过行为和结构防火墙积极清除噪声数据： * **“陷阱”协议：** 立即识别并丢弃伪装成技术人才的非工程类诱饵 profile（例如 HR Manager、Civil Engineer）。 * **蜜罐检测器：** 通过算法标记数学上不可能存在的 profile（例如，声称拥有“专家”级别技能但持续时间仅为 0 个月的候选人）。 * **咨询与地域拦截：** 严格过滤以强制执行 JD 地域集群，并排除活跃的咨询公司员工。 ### 2. 阶段 1：关键词密度引擎为了防止向量化过程超时，我们实现了一个自定义的轻量级“零相关性下限”。 * 该引擎会扫描每份简历的原始非结构化文本（摘要 + 职位描述）。 * 它会计算高度特定的 JD 目标的精确频率（例如 `Pinecone`、`RAG`、`Milvus`、`NDCG`）。 * 只有**密度最高的前 10,000 份 profile** 才能进入阶段 2。 ### 3. 阶段 2：语义向量排序与高斯衰减前 1 万名高密度候选人池将使用通过本地运行 `sentence-transformers` 的 `all-MiniLM-L6-v2` 转换为高维 embedding。 * **向量相似度：** 对目标 Job Description embedding 应用余弦相似度。 * **高斯经验曲线：** 系统不采用硬性的经验截止线，而是使用钟形曲线修正器，对落在目标 5-9 年经验区间之外的候选人进行数学上的惩罚： Penalty = e^{-\frac{(x - \mu)^2}{4.0}}

标签：BM25算法, PyTorch, 人力资源科技, 人工智能, 信息检索, 凭据扫描, 双阶段流水线, 时序数据库, 用户模式Hook绕过, 语义向量搜索, 逆向工具