Ramcharan747/UltraSearch

GitHub: Ramcharan747/UltraSearch

UltraSearch 是一个自托管、无限制的网页搜索与提取引擎,专为本地 AI 智能体设计,解决商业 API 限制和高级机器人防护问题。

Stars: 0 | Forks: 0

Golang

UltraSearch

The Unrestricted Tavily Alternative for Local AI Agents

[![Go 版本](https://img.shields.io/badge/Go-1.21+-00ADD8?logo=go)](https://golang.org) [![许可证](https://img.shields.io/badge/License-MIT-green.svg)](https://opensource.org/licenses/MIT) [![隐匿性](https://img.shields.io/badge/Bypass-Cloudflare%20%7C%20DataDome-red.svg)](#stealth) [![代理](https://img.shields.io/badge/AI%20Agents-OpenClaw%20%7C%20AutoGPT-purple.svg)](#api)

**UltraSearch** 是一个自托管、无限制的网页搜索与提取引擎,专为 **智能体工作流**(OpenClaw、AutoGPT、LangChain、Cursor)设计。 是否厌倦了商业工具(如 Tavily)的 API 速率限制、昂贵的积分和限制性的抓取策略?UltraSearch 完全在您的本地机器上运行,可轻松绕过企业级机器人防护(Cloudflare Turnstile、DataDome),将原始、纯净、令牌优化后的数据直接输入到您的 LLM 上下文窗口中。 ## 🔥 为什么选择 UltraSearch? - **本地 API 服务器(`--serve`)**:可立即将 UltraSearch 无缝集成到任何智能体框架中,作为外部搜索 API 的 1:1 替代品。 - **LLM 稠密输出(`--output-format=llm-dense`)**:生成超压缩、去除空白的 HTML/文本块,专门设计用于最大化利用您的 LLM 上下文窗口。 - **Google AI 概述提取**:原生提取 Google 新一代生成式 AI 摘要作为“第 0 位”结果,将纯净的 AI 合成答案直接提供给您的本地智能体。 - **VS Code 扩展集成**:包含一个原生的 VS Code 包装器(`vscode-ultrasearch/`),让 Cursor 或 GitHub Copilot 等 AI 助手能够直接命令引擎进行网络研究。 - **自动化防御分类**:智能探测目标并将它们分为 4 个层级(静态 HTML、JS 渲染、机器人防护、登录墙)。 - **拟人化求解器**:包含一个强大的机器学习训练轨迹生成器,模拟人类光标移动和输入延迟,以完美绕过零点击验证码。 ## 🔌 VS Code / Cursor 集成 要让您的 AI 助手(例如 Cursor、GitHub Copilot)无需离开 IDE 即可无缝使用 UltraSearch: 1. 导航到扩展文件夹:`cd vscode-ultrasearch` 2. 安装依赖项:`npm install` 3. 打包扩展:`npx vsce package` 4. 将生成的 `.vsix` 文件安装到您的 IDE 中。 这将注册命令 `UltraSearch: Web Search (For AI Context)`,使您的 IDE 智能体能够动态地将数据抓取到一个稠密的、令牌优化后的编辑器标签页中。 ## 🧠 轨迹模型 UltraSearch 通过重放经过生物验证的光标移动,原生绕过高级机器人检测(如 Cloudflare Turnstile)。 `solver/trajectories.json` 文件是由我们的姊妹项目 **[光标轨迹](https://github.com/Ramcharan747/Cursor-tragectory)** 生成的预训练代码库。 如果您希望避免与其他用户共享指纹,您可以从该仓库运行 Rust 捕获守护进程,记录您**自己独特的生物动作**,并训练一个个人化的 SIREN → VQ-VAE → 潜在 ODE 模型! ## 🚀 安装 确保您已安装 [Go 1.21+](https://go.dev/)。 ``` # 克隆仓库 git clone https://github.com/Ramcharan747/UltraSearch.git cd UltraSearch # 安装依赖项 go mod tidy # 构建 CLI 工具 go build -o ultrasearch main.go classifier.go ``` ## 💻 用法 UltraSearch 设计为可通过 CLI 标志完全控制。 ### 单次查询 对单个查询执行隐匿搜索,并从排名前 5 的结果中提取深层内容。 ``` ./ultrasearch -query "best python stealth scraping tools 2025" -limit 5 ``` ### 批量查询搜索 传递一个包含数千个查询(每行一个)的文本文件(`queries.txt`),以并行处理。 ``` ./ultrasearch -bundle queries.txt -workers 10 -limit 10 ``` ### 轻量级模式 仅提取搜索摘要和 URL,跳过深层内容提取(速度快如闪电)。 ``` ./ultrasearch -query "private equity SaaS acquisitions" -content=false ``` ### CLI 参数参考 | 标志 | 默认值 | 描述 | | :--- | :--- | :--- | | `-query` | `""` | 要执行的单个搜索查询字符串。 | | `-bundle` | `""` | 包含查询(每行一个)的文本文件路径。 | | `-limit` | `10` | 每个查询要处理的最大搜索结果数。 | | `-workers` | `5` | 要生成的并发处理工作线程数。 | | `-content` | `true` | 提取完整页面内容(T1-T4)。设置为 `false` 仅获取 URL/摘要。 | | `-output` | `"ultra_results.json"` | 保存提取的 JSON 数据的路径。 | ## 🧠 架构:四级递进模型 UltraSearch 不会在简单页面上浪费重型浏览器资源。它会智能地路由流量: 1. **第 1 级(静态)**:快速 `net/http` 提取。纯 curl 速度。 2. **第 2 级(JS 渲染)**:用于 SPA(React、Next.js)的无头 Chrome 标签页。 3. **第 3 级(机器人防护)**:非无头 Chrome,带有深度 CDP 隐匿标志、指纹欺骗和轨迹求解器引擎。 4. **第 4 级(域持久性)**:用于处理激进的托管挑战。停靠在根域,清除防火墙,并通过后台 JS `fetch()` 无形提取目标子页面,以规避会话重置。 ## 🤝 贡献 正是贡献让开源社区成为了一个学习、启发和创造的奇妙之地。我们**非常感激**您所做的任何贡献。 1. 复刻项目 2. 创建您的特性分支 (`git checkout -b feature/AmazingFeature`) 3. 提交您的更改 (`git commit -m 'Add some AmazingFeature'`) 4. 推送到分支 (`git push origin feature/AmazingFeature`) 5. 打开一个拉取请求 ## 📝 许可证 在 MIT 许可证下分发。更多信息请参见 `LICENSE`。
标签:AI代理, API服务器, AutoGPT, Cursor集成, EVTX分析, Golang, Google AI概述, LangChain, LLM优化, OpenClaw, VS Code扩展, 上下文窗口优化, 令牌压缩, 可视化界面, 安全编程, 搜索引擎, 搜索引擎替代, 数据可视化, 数据抓取工具, 数据提取, 日志审计, 本地部署, 绕过机器人保护, 网络搜索, 轻量级, 防检测技术