alwaysstrive2024/SiteScout
GitHub: alwaysstrive2024/SiteScout
一个面向数字考古的多站点垂直搜索智能体,通过 LLM 驱动的资源漏斗在指定站点池中精准提炼有效下载链接。
Stars: 1 | Forks: 0



# 🕵️♂️ SiteScout (灵嗅)
**一个高精度的多站点搜索与 LLM 驱动的资源提炼智能体。**
[](https://www.google.com/search?q=LICENSE)
[](https://www.python.org/)
[](https://www.deepseek.com/)

## 🌟 概述
**SiteScout** 是一个专为“数字考古”设计的专用 AI Agent。它解决了在特定论坛或垂直站点中搜索小众资源的痛点:在这些地方,信息密度低,广告泛滥,且链接往往失效或被隐藏。
与盲目的全局搜索不同,SiteScout 遵循 **“定点渗透 + 漏斗提炼”** 的架构。它允许用户定义一个“受信任站点池”,并发抓取这些站点,并利用 **LLM** 自动识别、提取和验证真实的下载链接。
## ✨ 主要特性
* **🎯 垂直领域“狙击式”搜索**:支持自定义 `site:` 运算符列表。深入特定的垂直论坛(如 Reddit, V2EX, GitHub),而不是嘈杂的开放网络。
* **🌪️ 资源漏斗 (Map-Reduce)**:
* **原始数据**:保留每个站点最多 20 个原始搜索结果,供人工核查。
* **提炼摘要**:基于所有站点的前 $K$ 个结果,由 LLM 生成的“快速清单”。
* **🧠 智能去噪**:自动过滤“加群取链”、“回复可见”以及虚假重定向广告。
* **⚡ 高性能并发**:基于 `httpx` 和 `asyncio` 构建,同时执行多站点查询,将响应延迟降低多达 70%。
* **🌐 开发者友好**:原生支持 **DeepSeek**、**Bocha AI** 和 **Exa AI** API。
## 🏗️ 架构
SiteScout 采用解耦的模块化设计:
1. **输入层**:接收搜索查询、目标域名列表、`raw_n`(显示数量)和 `llm_k`(提炼数量)。
2. **调度器**:将工作流编排为并行的异步检索任务。
3. **检索层**:配合特定的 `site:` 运算符使用搜索引擎 API (Bocha/Exa/Serper)。
4. **预过滤器**:基于关键词相关性(例如 "pan", "magnet", "download", "release")对结果进行排序。
5. **LLM 提炼器**:DeepSeek-R1 提取下载链接、密码及资源完整性状态。
6. **展示层**:结构化渲染 Markdown 表格摘要,随后附上原始数据日志。
## 🚀 快速开始
### 1\. 克隆仓库
```
git clone https://github.com/YourName/SiteScout.git
cd SiteScout
```
### 2\. 配置
创建一个 `.env` 文件并添加您的 API 密钥:
```
DEEPSEEK_API_KEY=your_key_here
BOCHA_API_KEY=your_key_here # Or TAVILY_API_KEY / EXA_API_KEY
```
### 3\. 安装与运行
```
pip install -r requirements.txt
python main.py
```
## 💡 使用示例
**输入:**
* **查询词**:`Black Myth Wukong Optimization Patch`
* **站点**:`v2ex.com, github.com, reddit.com`
* **参数**:`raw_n=20, llm_k=5`
**输出:**
## 🛠️ 技术栈
* **大脑**:[DeepSeek-R1 / V3](https://www.deepseek.com/)
* **搜索引擎**:[Bocha AI](https://open.bochaai.com/) / [Exa AI](https://exa.ai)
* **框架**:FastAPI / Antigravity / Dify
* **并发**:Python Asyncio & `httpx`
## 🤝 贡献
欢迎贡献代码!如果您觉得这个工具有用,请点一个 **Star** 🌟。这对于一位成长中的 AI 工程师来说意义重大!
标签:AI摘要, AV绕过, DeepSeek, FastAPI, LLM智能体, Python, Python扩展, SEO搜索, 垂直搜索引擎, 并发抓取, 开源情报工具, 数字考古, 数据清洗, 无后门, 熵值分析, 自动去广告, 计算机取证, 资源聚合, 运行时操纵, 逆向工具, 链接提取