abhinav-bharti-max/soushen-hunter

GitHub: abhinav-bharti-max/soushen-hunter

基于Playwright的高性能搜索引擎工具,支持Bing/Google零成本搜索和网页深度元素提取,集成OpenClaw框架。

Stars: 0 | Forks: 0

# 搜神猎手 (SouShen Hunter) 高性能 Bing/Google 搜索引擎 Skill for OpenClaw - 无需 API 费用,深度网页元素提取 ## ✨ 特性 - 🔍 **Bing 搜索** - 使用 Playwright 底层 API,零 API 费用 - 🌐 **Google 搜索** - 高级反检测策略,绕过人机验证 - 🎯 **深度提取** - 自动提取页面链接、表单、按钮、脚本 - ⚡ **高性能** - 异步架构,快速响应 - 🛡️ **反检测** - 绕过反爬虫机制(用户数据目录、行为模拟、指纹伪装) - 🤖 **OpenClaw 集成** - 开箱即用 ## 📦 安装 # 克隆仓库 git clone https://github.com/hexian2001/soushen-hunter.git # 复制到 OpenClaw skills 目录 cp -r soushen-hunter ~/.openclaw/skills/ # 重启 OpenClaw ## 🔧 依赖 pip install playwright **Chrome 自动检测** 脚本会自动检测以下位置的 Chrome: - 环境变量 `CHROME_PATH` 或 `CHROME_BIN` - 系统 PATH 中的 `google-chrome`, `chromium` 等 - 常见安装路径(Linux/macOS/Windows) - 项目自带 `/root/ezisall/chrome-linux64/chrome` 手动指定 Chrome 路径: export CHROME_PATH=/usr/bin/google-chrome ./soushen "搜索关键词" ## 🚀 使用 ### CLI 命令 **主入口(推荐)** # 使用默认搜索引擎(默认 Bing) ./soushen "搜索关键词" # 指定结果数量 ./soushen "搜索关键词" --num 20 # 指定搜索引擎 ./soushen "搜索关键词" --engine google # 深度页面分析 ./soushen --deep "https://目标网址" # 设置默认搜索引擎 ./soushen --set-default-engine google ./soushen --set-default-engine bing # 查看配置 ./soushen --config **Bing 搜索** # 基础搜索 python scripts/bing_search.py "搜索关键词" # 指定结果数量 python scripts/bing_search.py "搜索关键词" --num 20 # 深度页面分析 python scripts/bing_search.py --deep "https://目标网址" **Google 搜索** # 基础搜索 python scripts/google_search.py "搜索关键词" # 指定结果数量 python scripts/google_search.py "AI Agent" --num 20 # 深度页面分析 python scripts/google_search.py --deep "https://目标网址" ### Python API **Bing 搜索** from scripts.bing_search import BingSearchAgent import asyncio async def main(): async with BingSearchAgent() as agent: results = await agent.search("OpenClaw AI Agent") for r in results: print(f"{r.title}: {r.url}") asyncio.run(main()) **Google 搜索** from scripts.google_search import GoogleSearchAgent import asyncio async def main(): async with GoogleSearchAgent() as agent: results = await agent.search("OpenClaw AI Agent") for r in results: print(f"{r.title}: {r.url}") asyncio.run(main()) **深度页面分析** # 使用 Bing 引擎 async with BingSearchAgent() as agent: elements = await agent.extract_page_elements("https://example.com") print(f"找到 {len(elements.links)} 个链接") # 使用 Google 引擎 async with GoogleSearchAgent() as agent: elements = await agent.extract_page_elements("https://example.com") print(f"找到 {len(elements.links)} 个链接") ## 📁 结构 soushen-hunter/ ├── SKILL.md # Skill 定义文档 ├── README.md # 本文件 ├── soushen # 主入口脚本 ├── .soushen_config.json # 配置文件(自动生成) └── scripts/ ├── bing_search.py # Bing 搜索脚本 └── google_search.py # Google 搜索脚本 ## ⚙️ 配置文件 主入口脚本会在首次运行时自动生成 `.soushen_config.json` 配置文件: { "default_engine": "bing", "default_num_results": 10 } - `default_engine`: 默认搜索引擎(`bing` 或 `google`) - `default_num_results`: 默认返回结果数量 可通过命令修改: ./soushen --set-default-engine google ./soushen --config # 查看当前配置 ## 🔥 为什么叫"搜神猎手" **搜神** - 搜寻信息的神奇能力 **猎手** - 精准、迅猛、一击必中 ## 🛡️ Google 反检测策略说明 Google 拥有严格的反爬虫机制,本脚本采用以下策略来 bypass 人机检测: ### 核心策略 1. **用户数据目录复用** - 自动检测并使用现有的 Chrome 用户配置,保留 Cookie 和会话 2. **浏览器指纹伪装** - 隐藏 `navigator.webdriver` 等自动化特征 3. **行为模拟** - 随机延迟、鼠标移动模拟真实用户行为 4. **多用户代理轮换** - 随机选择真实的浏览器 User-Agent 5. **地理位置模拟** - 设置合理的时区和地理位置 ### 如遇到人机验证 如果仍然遇到"证明你不是机器人"验证,可以尝试: # 1. 使用你自己的 Chrome 配置目录 export CHROME_PROFILE_DIR=~/.config/google-chrome python scripts/google_search.py "关键词" # 2. 使用有登录状态的 Chrome(已登录 Google 账号) # 脚本会自动检测并使用现有配置 # 3. 降低搜索频率,添加延迟 # 脚本已内置随机延迟,建议不要高频调用 # 4. 使用 Bing 搜索作为替代方案 python scripts/bing_search.py "关键词" ### 最佳实践 - ✅ 首次运行时使用**有头模式**手动通过一次验证,保存 Cookie - ✅ 复用现有的 Chrome 用户配置(已登录 Google 的更好) - ✅ 控制搜索频率,建议每分钟不超过 5-10 次 - ✅ 如遇持续验证,切换到 Bing 搜索 ## 👤 作者 胤仙(何润培)- 小喵的主人 ## 📄 许可 MIT License *由 OpenClaw AI 助手「小喵」协助创建* 🐱
标签:Chrome浏览器, OpenClaw, Playwright, Python, SEO工具, URL抓取, 反检测, 反爬虫, 命令控制, 密码管理, 异步编程, 指纹伪装, 搜索引擎, 数据抓取, 数据采集, 无API费用, 无后门, 浏览器自动化, 深度提取, 特征检测, 绕过人机验证, 网络调试, 网页分析, 自动化, 逆向工具