1596941391qq/EdgeKnowledge_Skill

GitHub: 1596941391qq/EdgeKnowledge_Skill

AI 驱动的地下论坛边缘知识挖掘系统，通过浏览器自动化和视觉分析从灰色社区中提取稀缺战术情报并生成结构化报告。

Stars: 34 | Forks: 2

[![GitHub 星标](https://img.shields.io/github/stars/1596941391qq/EdgeKnowledge_Skill?style=social)](https://github.com/1596941391qq/EdgeKnowledge_Skill/stargazers) [![许可证: MIT](https://img.shields.io/badge/License-MIT-green.svg)](LICENSE) [![Python](https://img.shields.io/badge/Python-3.10%2B-blue.svg)](https://www.python.org/) [![流水线](https://img.shields.io/badge/Pipeline-2%20of%203-6e40c9.svg)](#pipeline) # 边缘知识 AI 驱动的边缘知识挖掘系统。根据用户需求智能推荐高价值论坛（Reddit、BlackHatWorld、GreyHatMafia 等），利用 browser-use 进行深度爬取、视觉识别，并分析边缘战术、高级用户和资源，最终输出一份结构化的 Markdown 报告。 ## 🎯 核心理念 ### 什么是边缘知识？在 AI 时代，LLM 能够轻易理解或从互联网上收集到的信息被视为常识。边缘知识则是指那些触及平台规则边界、稀缺的行业门道以及灰/黑帽技术。 **边缘知识包括**： - ✅ 黑/白/灰帽 SEO：PBN、Parasite SEO、Cloaking、Link Farms - ✅ 战术技巧：被封禁的、有风险的但有效的方法 - ✅ 地下工具：GSA SER、SEnuke、Xrumer、Scrapebox - ✅ 真实数据：成功率、价格、风险、案例数量 - ✅ 有争议的战术：高赞回复、争议性讨论、实用分享 **不包括**： - ❌ 白帽老生常谈（“写好内容，流量自然来”） - ❌ 官方文档（Google SEO 指南） - ❌ 主流建议（“改善用户体验”） ### 边缘知识的三大特征 1. **新鲜度** - 最新信息（2025年之后） 2. **稀缺性** - 独家信息（仅在小圈子里流传） 3. **可信度** - 值得信赖的信息（附带数据和案例） ## ✨ 核心能力 ### V1：基础版 - 🎯 **意图提取与查询泛化** - 泛化查询方向并推荐高质量论坛 - 🧠 **用户偏好记忆** - 记住最喜欢的论坛和搜索习惯 - 🔐 **凭证管理** - 自动管理论坛凭证，支持会话复用 - 🛡️ **反检测系统** - 固定指纹、随机延迟、会话管理，降低账号风险 - 🌐 **智能浏览器爬取** - 使用 browser-use 技能，支持截图 + 视觉识别 - 🔍 **深度内容分析** - 边缘知识识别、高级用户识别、资源提取 - 📊 **单次报告输出** - 以日期 + 主题命名，结构化展示 ### 🆕 V2：猎人模式 (全新！) V2 增加了激进的资源获取能力： | 功能 | 描述 | |---------|-------------| | **🎯 价值信号检测** | 6 种模式类型：回复解锁、隐藏内容、下载链接、提取码、附件、任务门槛 | | **🤖 自动回复系统** | 25 个随机模板（15 英文 + 10 中文），自动语言检测 | | **📦 资源下载器** | 下载所有文件类型（.exe/.bat/.torrent），保持完整性 | | **🔗 深度追踪** | 外链追踪、作者追踪、评论区挖掘 | | **🧵 工具集成** | 预集成 Agent-Reach、gallery-dl、yt-dlp、Crawl4AI | ## 🚀 快速安装 ``` git clone https://github.com/1596941391qq/EdgeKnowledge_Skill.git cd EdgeKnowledge_Skill chmod +x install.sh ./install.sh ``` 或者将此技能复制到 Claude Code 的 skills 目录下： ``` cp -r edge-knowledge ~/.claude/skills/ ``` ## 🔄 MCP 工具路由 (V2) V2 包含一个**智能三层路由引擎**，可自动为每个任务选择最佳工具 —— 以成本优先，并提供回退保障。 ### 工具层级 | 层级 | 工具 | 成本 | 最适用场景 | |------|------|------|----------| | **第 1 层** | `browser-use` | 免费（本地 Playwright） | 截图 + 视觉识别、点击/滚动/表单、JS 懒加载、登录后访问 | | **第 2 层** | `agent-browser` | 免费（Vercel CLI） | 重复性结构提取、@e1/@e2 元素选择、脚本化多步操作 | | **第 3 层** | `google-gemini-mcp` | API 密钥（按 Token 计费） | 绕过反机器人拦截、批量 URL 分析（>10 页）、复杂多模态理解 | ### 路由规则 ``` IF captcha_detected AND captcha_type == "recaptcha_v2": → ai-captcha-bypass (GPT-4o or Gemini 2.5) → retry IF cloudflare_blocked AND browser_use_failed: → google-gemini-mcp (Tier 3) IF batch_analysis AND urls > 10: → google-gemini-mcp (concurrent) IF visual_heavy AND needs_screenshot: → browser-use (Tier 1) IF download_only: → gallery-dl / yt-dlp (bypasses browser) ``` ### MCP 服务器配置所有 MCP 服务器配置均位于 `mcp_config.json` 中： - **`google-gemini-mcp`** — Gemini 2.5 深度搜索，URL 抓取，多模态分析 - **`ai-captcha-bypass`** — 由 GPT-4o / Gemini 驱动的验证码破解（Selenium + Firefox） ## ⚙️ 配置文件 ### forum_database.json 包含论坛信息和搜索策略的论坛知识库。 **结构**： ``` { "categories": { "Q&A_Search": { "description": "Suitable for mining deep discussions and real user feedback in comment sections", "forums": [...] }, "Edge_Knowledge_Search": { "description": "Suitable for mining gray/black hat techniques not found in mainstream channels", "forums": [...] }, "Deep_Dive_Forums": { "description": "Deep content that others don't know about", "forums": [...] } }, "search_strategies": { "Instagram_Growth": { "keywords": [...], "recommended_forums": [...], "focus": "Real feedback in comment sections and gray techniques" } } } ``` **用法**： - 系统会自动读取此文件以推荐论坛 - 您可以添加新的论坛或搜索策略 - 每个论坛包括：名称、URL、评分、成本、目标受众、标签 ### memory.json.template 用户偏好和爬取历史的模板。首次使用时请复制为 `memory.json`： ``` cp memory.json.template memory.json ``` **结构**： ``` { "userPreferences": { "favoriteForums": ["BestBlackHatForum"], "domains": ["SEO", "Black Hat Techniques", "Traffic Arbitrage"], "lastUsedDomain": "Black Hat SEO" }, "forumCredentials": { "bestblackhatforum.com": { "username": "", "password": "", "lastLogin": "", "loginCount": 1, "cookies": null, "localStorage": null, "sessionValid": true } }, "crawledResources": [], "antiDetection": { "viewport": {"width": 1920, "height": 1080}, "userAgent": "", "timezone": "", "locale": "", "randomDelayRange": [5000, 30000], "maxLoginPerDay": 3, "reuseSession": true, "sessionExpiryHours": 24 } } ``` **字段说明**： - `userPreferences`：您最喜欢的论坛和领域 - `forumCredentials`：论坛登录凭证（在您提供时自动保存） - `crawledResources`：已爬取 URL 的历史记录（防止重复爬取） - `antiDetection`：反检测配置（视口、延迟、登录限制） **隐私提示**：`memory.json` 位于 `.gitignore` 中，不会被提交到 Git。您的凭证在本地是安全的。 ### value_patterns.json (V2) 用于猎人模式的价值信号检测模式。 **包括的模式**： - `reply_unlock` - "回复以解锁隐藏内容" - `hidden_content` - "隐藏内容 / 剧透块" - `download_link` - Mega/Mediafire/百度网盘链接 - `extract_code` - "密码: xxx" / "提取码: xxx" - `attachment` - "下载附件" - `task_threshold` - "需要 X 帖子 / X 赞才能查看" ### platforms.json (V2) 特定平台的下载配置。 **结构**： ``` { "mega.nz": { "tool": "gallery-dl", "args": ["--no-mtime"], "maxConcurrent": 2 }, "youtube.com": { "tool": "yt-dlp", "args": ["-f", "best"] } } ``` ### 5. resources/ 目录 (V2) 有组织的资源存储： ``` resources/ ├── downloads/ # Downloaded files (by date) ├── links/ │ ├── mega.json # Mega links index │ ├── baidu.json # Baidu pan links │ └── gdrive.json # Google Drive links ├── codes/ │ └── passwords.json # Extract codes └── index.json # Unified resource index ``` ## 🚀 使用方法 ### 基本用法 ``` Use edge-knowledge to mine cost-effective Instagram growth services ``` ### 真实世界示例展示该技能的边缘知识追踪能力： #### 示例 1：黑帽 SEO 技术 ``` Use edge-knowledge to find the latest black hat SEO techniques for 2026 ``` **您将获得**： - 最新的 PBN（Private Blog Network）策略 - 仍然有效的 Parasite SEO 战术 - 用于绕过 Google 检测的 Cloaking 技术 - 链接农场方法和自动化工具 #### 示例 2：联盟营销套利 ``` Use edge-knowledge to discover profitable affiliate traffic sources ``` **您将获得**： - 高 ROI 的地下流量来源 - 接受灰帽方法的 CPA 网络 - 顶级联盟的媒体购买策略 - 带有真实数字的实际案例研究 #### 示例 3：社交媒体增长黑客 ``` Use edge-knowledge to find Instagram automation tools that bypass detection ``` **您将获得**： - 2026 年仍然有效的自动化机器人 - 提供真实互动的 SMM 面板 - 增长黑客脚本和技术 - 风险评估和规避检测的方法 #### 示例 4：工具发现 ``` Use edge-knowledge to find cracked SEO tools and automation software ``` **您将获得**： - 可用的高级 SEO 工具破解版 - 用于抓取和发布的自动化脚本 - 破解版的 WordPress 插件和主题 - 社区评论和安全评级 ### 工作流程 1. **阶段 1：论坛推荐** - 系统根据您的需求推荐相关论坛 2. **阶段 2：智能爬取** - 使用 browser-use 深度爬取论坛内容 3. **阶段 3：内容分析** - 识别边缘知识、高级用户、资源 4. **阶段 4：报告生成** - 输出结构化的 Markdown 报告 ## 🛠️ 内置工具模块包含以下模块，用于处理边缘情况的自动化需求： | 模块 | 用途 | |--------|---------| | `rules/access-control.md` | 访问控制与授权边界定义 | | `mcp_config.json` | 中央 MCP 服务器和工具路由配置 | | `cdp-scripts/` | 基于 CDP 的论坛爬虫（见下文 CDP 脚本部分） | 所有工具在触发时会由路由引擎自动调用。 ## CDP 脚本使用 Chrome DevTools Protocol 进行浏览器自动化的爬虫，用于定向论坛挖掘： | 脚本 | 目标 | 功能 | |---|---|---| | `bhw-crawler.mjs` | BlackHatWorld | 帖子列表爬虫 | | `bhw-crawler-v2.mjs` | BlackHatWorld | 带价值信号检测的 V2 版本 | | `bhw-detail-crawler.mjs` | BlackHatWorld | 深度帖子内容提取 | | `bhw-backlink-scrape.mjs` | BlackHatWorld | 反向链接机会抓取器 | | `bhw-vendor-verify.mjs` | BlackHatWorld | 供应商/服务验证 | | `cdp-batch-bbhf.mjs` | BestBlackHatForum | 批量论坛爬虫 | | `cdp-bbhf-threads.mjs` | BestBlackHatForum | 帖子详情提取器 | | `cdp-buildersociety.mjs` | BuilderSociety | 论坛爬虫 | | `cdp-buildersociety-v2.mjs` | BuilderSociety | V2 增强提取 | | `scrape-onehack.mjs` | OneHack | 内容抓取器 | ## 📚 支持的论坛（部分列表） | 排名 | 论坛 | 评分 | 成本 | 目标受众 | |------|-------|--------|------|-----------------| | 1 | GreyHatMafia | 9.5/10 | 免费 | 所有人 | | 4 | SEO Isn't Dead | 9/10 | 免费 | SEO 从业者 | | 6 | BlackHatWorld | 8.5/10 | 免费 | 通用营销 | | 7 | BestBlackHatForum | 9.5/10 | 免费 | 推荐：slenderman 的帖子 | | 8 | Reddit | 10/10 | 免费 | 评论区价值极高 | ## 📋 报告示例生成的报告包含三层分析： ### 1. 边缘知识识别 ``` ### Edge Knowledge #1: [Knowledge Title] **Compressed Expression**: [One-sentence summary] **Easy Explanation**: [Detailed explanation] **Viewpoints**: @username: "viewpoint content" **Risk**: [Potential risks] **Cost**: [Time/money/learning cost] **Source Link**: [Original link] ``` ### 2. 高级用户识别 ``` ### Power User #1: @username **Username**: username (forum name) **High-Energy Viewpoints**: "viewpoint1", "viewpoint2" **Link**: [User profile link] ``` ### 3. 资源提取 ``` ### Resource #1: [Tool/Service Name] **Name**: Tool name **Link**: [Tool link] **Description**: [Feature description] **Price**: [Price information] **Review**: [User review summary] ``` ## 🔧 技术架构 ### 依赖项 - Claude Code CLI - browser-use 技能 / agent-browser 技能 - Python 3.8+ ### 跨平台安装程序 `install.sh` 会自动检测 **macOS**、**Ubuntu/Debian**、**CentOS/RHEL** 和 **Arch Linux**，安装系统包，配置 Playwright，并设置 MCP 服务器。 ### V2 额外依赖 ``` pip install gallery-dl yt-dlp crawl4ai ``` ### 数据流 ``` User Need → Read memory.json → Recommend Forums → User Confirms → Check Credentials → Apply Anti-Detection Config → browser-use Crawl → Claude Analysis → Generate Report → Update memory.json ``` ### 参考截图 ![](https://cdn.nlark.com/yuque/0/2026/png/65208130/1770384664181-3508fcfa-012e-45b9-a3b3-43f343c4ad21.png) ![](https://cdn.nlark.com/yuque/0/2026/png/65208130/1770384830572-2db0ae2f-2b82-4077-bff1-8e04658d708a.png) ![](https://cdn.nlark.com/yuque/0/2026/png/65208130/1770384935540-1488fc21-351a-4515-ad6f-0431e20ba6ec.png) ## ⚠️ 重要提示 1. **合法使用** - 仅用于教育和研究目的，请遵守论坛规则和当地法律 2. **账号安全** - 使用专用账号，避免使用您的主要账号 3. **反检测** - 系统会自动应用反检测策略，但请谨慎使用 4. **内容风险** - 边缘知识可能包含风险操作，请自行判断 ## 📄 许可证 MIT 许可证 ## 👤 作者黑咖啡和冰月亮 / Black Coffee & Ice Moon (@weihackings) ## 🤝 贡献欢迎提交 Issues 和 Pull Requests！ ## ⭐ Star 历史 [![Star 历史图表](https://api.star-history.com/svg?repos=1596941391qq/EdgeKnowledge_Skill&type=Date)](https://star-history.com/#6941391qq/EdgeKnowledge_Skill&Date) ## ❓ 常见问题 ### 问题 1：使用此工具合法吗？ **回答**：此工具仅用于教育和研究目的。请务必遵守论坛服务条款和当地法律。使用风险自负。 ### 问题 2：我的账号会被封吗？ **回答**：该工具包含反检测功能（随机延迟、会话复用、登录限制），但始终存在风险。我们建议： - 使用专用账号，而不是您的主要账号 - 遵守 `maxLoginPerDay` 限制（默认：3） - 不要过于激进地爬取 ### 问题 3：我需要提供论坛凭证吗？ **回答**：仅适用于需要登录的论坛（如 BestBlackHatForum）。对于公共论坛（如 Reddit），不需要凭证。您的凭证本地存储在 `memory.json` 中，永远不会提交到 Git。 ### 问题 4：如何添加我自己的论坛？ **回答**：编辑 `forum_database.json` 并将您的论坛添加到相应的类别中： ``` { "name": "YourForum", "url": "https://yourforum.com", "rating": 9.0, "cost": "Free", "target_audience": "Your Target Audience", "tags": ["tag1", "tag2"] } ``` ### 问题 5：我可以创建特定领域的分支吗？ **回答**：可以！Fork 此仓库并创建一个类似 `seo-expert` 或 `affiliate` 的分支。为您的领域自定义 `forum_database.json` 和 `skill.md`。请参阅我们的[贡献指南](#-knowledge-equity-initiative)。 ### 问题 6：如何与 Notion/飞书集成？ **回答**：这是一个社区贡献的机会！您可以： 1. Fork 此仓库 2. 添加集成代码以将报告推送到您的协作工具 3. 提交包含您集成的 PR ### 问题 7：边缘知识和常识有什么区别？ **回答**： - **常识**：通过 Google/ChatGPT 容易找到的信息（例如，“写好内容”） - **边缘知识**：来自地下社区的稀缺、有风险或具争议性的战术（例如，“在 2026 年绕过 Google 处罚的 PBN 网络”） ### 问题 8：论坛数据库多久更新一次？ **回答**：由社区驱动！提交 PR 以添加新论坛或更新评级。我们会定期审查和合并高质量的贡献。 ### 问题 9：我可以将此用于白帽 SEO 吗？ **回答**：虽然该工具专注于“边缘”知识，但您可以自定义 `forum_database.json` 以包含白帽论坛，并相应地调整搜索策略。 ### 问题 10：如何报告错误或请求功能？ **回答**：在 [GitHub Issues](https://github.com/1596941391qq/EdgeKnowledge_Skill/issues) 上开一个 issue，并提供以下信息： - 错误/功能的清晰描述 - 复现步骤（针对错误） - 期望行为与实际行为对比 - 您的环境（操作系统、Claude Code 版本） ## OpenCLI 集成此本地技能现在附带 Windows PowerShell OpenCLI 层： - `scripts/setup-opencli.ps1` - `scripts/test-opencli.ps1` - `scripts/invoke-opencli.ps1` 推荐顺序： 1. 安装并启用名为 `Browser Bridge` 的 Chrome 扩展 2. 运行 `scripts/setup-opencli.ps1` 3. 使用 `scripts/invoke-opencli.ps1` 执行由浏览器支持的 OpenCLI 命令 4. 当 OpenCLI 未涵盖目标工作流时，回退到现有的 `browser-use`、MCP 或自定义论坛流程

标签：AI知识挖掘, BlackHatWorld, GreyHatMafia, LLM, Python, Reddit, SEO黑帽, Unmanaged PE, URL抓取, 可视化分析, 地下论坛, 实时处理, 情报收集, 数据库接管, 数据抓取, 无后门, 浏览器自动化, 深度爬虫, 漏洞研究, 灰帽技术, 特征检测, 竞争情报, 结构化报告, 网络安全, 自定义脚本, 边缘知识, 逆向工具, 隐私保护