yusufkaraaslan/Skill_Seekers

GitHub: yusufkaraaslan/Skill_Seekers

将文档站点、代码仓库、PDF 等多源数据统一转化为 AI 技能包和 RAG 知识库的通用预处理平台

Stars: 12096 | Forks: 1215

Skill Seekers

# 技能寻求者 English | [简体中文](README.zh-CN.md) | [日本語](README.ja.md) | [한국어](README.ko.md) | [Español](README.es.md) | [Français](README.fr.md) | [Deutsch](README.de.md) | [Português](README.pt-BR.md) | [Türkçe](README.tr.md) | [العربية](README.ar.md) | [हिन्दी](README.hi.md) | [Русский](README.ru.md) [![Version](https://img.shields.io/badge/version-3.5.0-blue.svg)](https://github.com/yusufkaraaslan/Skill_Seekers/releases) [![License: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT) [![Python 3.10+](https://img.shields.io/badge/python-3.10+-blue.svg)](https://www.python.org/downloads/) [![MCP Integration](https://img.shields.io/badge/MCP-Integrated-blue.svg)](https://modelcontextprotocol.io) [![Tested](https://img.shields.io/badge/Tests-2540%2B%20Passing-brightgreen.svg)](tests/) [![Project Board](https://img.shields.io/badge/Project-Board-purple.svg)](https://github.com/users/yusufkaraaslan/projects/2) [![PyPI version](https://badge.fury.io/py/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) [![PyPI - Downloads](https://img.shields.io/pypi/dm/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) [![PyPI - Python Version](https://img.shields.io/pypi/pyversions/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) [![Website](https://img.shields.io/badge/Website-skillseekersweb.com-blue.svg)](https://skillseekersweb.com/) [![Twitter Follow](https://img.shields.io/twitter/follow/_yUSyUS_?style=social)](https://x.com/_yUSyUS_) [![GitHub Repo stars](https://img.shields.io/github/stars/yusufkaraaslan/Skill_Seekers?style=social)](https://github.com/yusufkaraaslan/Skill_Seekers) [![PyPI Downloads](https://static.pepy.tech/personalized-badge/skill-seekers?period=total&units=INTERNATIONAL_SYSTEM&left_color=BLACK&right_color=GREEN&left_text=downloads)](https://pepy.tech/projects/skill-seekers) yusufkaraaslan%2FSkill_Seekers | Trendshift **🧠 AI 系统的数据层。** Skill Seekers 将文档站点、GitHub 仓库、PDF、视频、笔记本、Wiki 以及 10 多种其他源类型转化为结构化的知识资产——几分钟内即可为 AI 技能、RAG 流水线 和 AI 编程助手 提供支持,而非数小时。 ## 🌐 生态系统 Skill Seekers 是一个多仓库项目。以下是各组件的所在地: | 仓库 | 描述 | 链接 | |-----------|-------------|-------| | **[Skill_Seekers](https://github.com/yusufkaraaslan/Skill_Seekers)** | 核心 CLI 与 MCP 服务器(本仓库) | [PyPI](https://pypi.org/project/skill-seekers/) | | **[skillseekersweb](https://github.com/yusufkaraaslan/skillseekersweb)** | 网站与文档 | [在线访问](https://skillseekersweb.com/) | | **[skill-seekers-configs](https://github.com/yusufkaraaslan/skill-seekers-configs)** | 社区配置仓库 | | | **[skill-seekers-action](https://github.com/yusufkaraaslan/skill-seekers-action)** | 用于 CI/CD 的 GitHub Action | | | **[skill-seekers-plugin](https://github.com/yusufkaraaslan/skill-seekers-plugin)** | Claude Code 插件 | | | **[homebrew-skill-seekers](https://github.com/yusufkaraaslan/homebrew-skill-seekers)** | macOS 的 Homebrew tap | | ## 🧠 AI 系统的数据层 **Skill Seekers 是通用预处理层**,位于原始文档和所有消费它的 AI 系统之间。无论您是在构建 Claude 技能、LangChain RAG 流水线,还是 Cursor `.cursorrules` 文件 —— 数据准备都是一样的。只需一次准备,即可导出到所有目标。 ``` # 一条命令 → 结构化知识资产 skill-seekers create https://docs.react.dev/ # 或者:skill-seekers create facebook/react # 或者:skill-seekers create ./my-project # 导出到任意 AI 系统 skill-seekers package output/react --target claude # → Claude AI Skill (ZIP) skill-seekers package output/react --target langchain # → LangChain Documents skill-seekers package output/react --target llama-index # → LlamaIndex TextNodes skill-seekers package output/react --target cursor # → .cursorrules ``` ### 构建内容 | 输出 | 目标 | 驱动内容 | |--------|--------|---------------| | **Claude Skill** (ZIP + YAML) | `--target claude` | Claude Code, Claude API | | **Gemini Skill** (tar.gz) | `--target gemini` | Google Gemini | | **OpenAI / Custom GPT** (ZIP) | `--target openai` | GPT-4o, custom assistants | | **LangChain Documents** | `--target langchain` | QA 链、代理、检索器 | | **LlamaIndex TextNodes** | `--target llama-index` | 查询引擎、聊天引擎 | | **Haystack Documents** | `--target haystack` | 企业级 RAG 流水线 | | **Pinecone-ready** (Markdown) | `--target markdown` | 向量更新 | | **ChromaDB / FAISS / Qdrant** | `--format chroma/faiss/qdrant` | 本地向量数据库 | | **Cursor** `.cursorrules` | `--target claude` → 复制 | Cursor IDE AI 上下文 | | **Windsurf / Cline / Continue** | `--target claude` → 复制 | VS Code, IntelliJ, Vim | ### 为何重要 - ⚡ **快 99%** —— 数天的手动数据准备 → 15–45 分钟 - 🎯 **AI 技能质量** —— 500+ 行的 SKILL.md 文件,包含示例、模式和指南 - 📊 **RAG 就绪分块** —— 智能分块保留代码块并维护上下文 - 🎬 **视频** —— 从 YouTube 和本地视频提取代码、转录和结构化知识 - 🔄 **多源** —— 将 17 种源类型(文档、GitHub、PDF、视频、笔记本、Wiki 等)合并为一个知识资产 - 🌐 **一次准备,到处导出** —— 将同一资产导出到 16 个平台,无需重新抓取 - ✅ **久经考验** —— 2,540+ 测试,24+ 框架预设,生产就绪 ## 🚀 快速开始 (3 条命令) ``` # 1. 安装 pip install skill-seekers # 2. 从任意来源创建技能 skill-seekers create https://docs.django.com/ # 3. 为你的 AI 平台打包 skill-seekers package output/django --target claude ``` **就是这样!** 您现在拥有了 `output/django-claude.zip`,可以直接使用。 ``` # 使用不同的 AI 代理进行增强(默认:claude) skill-seekers create https://docs.django.com/ --agent kimi skill-seekers create https://docs.django.com/ --agent codex skill-seekers create https://docs.django.com/ --agent-cmd "my-custom-agent run" ``` ### 其他来源(支持 17 种) ``` # GitHub 仓库 skill-seekers create facebook/react # 本地项目 skill-seekers create ./my-project # PDF 文档 skill-seekers create manual.pdf # Word 文档 skill-seekers create report.docx # EPUB 电子书 skill-seekers create book.epub # Jupyter Notebook skill-seekers create notebook.ipynb # OpenAPI 规范 skill-seekers create openapi.yaml # PowerPoint 演示文稿 skill-seekers create presentation.pptx # AsciiDoc 文档 skill-seekers create guide.adoc # 本地 HTML 文件 skill-seekers create page.html # RSS/Atom 订阅源 skill-seekers create feed.rss # Man page skill-seekers create curl.1 # 视频(YouTube, Vimeo, 或本地文件 — 需要 skill-seekers[video]) skill-seekers video --url https://www.youtube.com/watch?v=... --name mytutorial # 首次使用?自动安装支持 GPU 的视觉依赖: skill-seekers video --setup # Confluence wiki skill-seekers confluence --space TEAM --name wiki # Notion 页面 skill-seekers notion --database-id ... --name docs # Slack/Discord 聊天记录导出 skill-seekers chat --export-dir ./slack-export --name team-chat ``` ### 到处导出 ``` # 打包到多个平台 for platform in claude gemini openai langchain; do skill-seekers package output/django --target $platform done ``` ## 什么是 Skill Seekers? Skill Seekers 是 **AI 系统的数据层**。它将 17 种源类型——文档网站、GitHub 仓库、PDF、视频、Jupyter Notebooks、Word/EPUB/AsciiDoc 文档、OpenAPI 规范、PowerPoint 演示文稿、RSS 源、man pages、Confluence wikis、Notion 页面、Slack/Discord 导出等——转化为适用于各种 AI 目标的结构化知识资产: | 用例 | 获得内容 | 示例 | |----------|-------------|---------| | **AI 技能** | 全面的 SKILL.md + 参考资料 | Claude Code, Gemini, GPT | | **RAG 流水线** | 带有丰富元数据的分块文档 | LangChain, LlamaIndex, Haystack | | **向量数据库** | 准备好进行更新的预格式化数据 | Pinecone, Chroma, Weaviate, FAISS | | **AI 编程助手** | 您的 IDE AI 自动读取的上下文文件 | Cursor, Windsurf, Cline, Continue.dev | ## 📚 文档 | 我想... | 阅读此内容 | |--------------|-----------| | **快速上手** | [快速开始](docs/getting-started/02-quick-start.md) - 3 条命令完成第一个技能 | | **理解概念** | [核心概念](docs/user-guide/01-core-concepts.md) - 工作原理 | | **抓取来源** | [抓取指南](docs/user-guide/02-scraping.md) - 所有源类型 | | **增强技能** | [增强指南](docs/user-guide/03-enhancement.md) - AI 增强 | | **导出技能** | [打包指南](docs/user-guide/04-packaging.md) - 平台导出 | | **查询命令** | [CLI 参考](docs/reference/CLI_REFERENCE.md) - 所有 20 个命令 | | **配置** | [配置格式](docs/reference/CONFIG_FORMAT.md) - JSON 规范 | | **修复问题** | [故障排除](docs/user-guide/06-troubleshooting.md) - 常见问题 | **完整文档:** [docs/README.md](docs/README.md) 无需花费数天进行手动预处理,Skill Seekers 可以: 1. **摄取** —— 文档、GitHub 仓库、本地代码库、PDF、视频、笔记本、Wiki 以及 10 多种其他源类型 2. **分析** —— 深度 AST 解析、模式检测、API 提取 3. **结构化** —— 带有元数据的分类参考文件 4. **增强** —— AI 驱动的 SKILL.md 生成(Claude, Gemini, 或本地) 5. **导出** —— 从一个资产导出 16 种特定平台格式 ## 为何使用此工具? ### 对于 AI 技能构建者 - 🎯 **生产级技能** —— 500+ 行的 SKILL.md 文件,包含代码示例、模式和指南 - 🔄 **增强工作流** —— 应用 `security-focus`、`architecture-comprehensive` 或自定义 YAML 预设 - 🎮 **任何领域** —— 游戏引擎、框架、内部工具 - 🔧 **团队协作** —— 将内部文档 + 代码合并为单一事实来源 - 📚 **高质量** —— AI 增强,包含示例、快速参考和导航指南 ### 对于 RAG 构建者与 AI 工程师 - 🤖 **RAG 就绪数据** —— 预分块的 LangChain `Documents`、LlamaIndex `TextNodes`、Haystack `Documents` - 🚀 **快 99%** —— 数天的预处理 → 15–45 分钟 - 📊 **智能元数据** —— 类别、来源、类型 → 更好的检索准确性 - 🔄 **多源** —— 在一个流水线中结合文档 + GitHub + PDF + 视频 - 🌐 **平台无关** —— 导出到任何向量数据库或框架,无需重新抓取 ### 对于 AI 编程助手用户 - 💻 **Cursor / Windsurf / Cline** —— 自动生成 `.cursorrules` / `.windsurfrules` / `.clinerules` - 🎯 **持久上下文** —— AI 无需重复提示即可“了解”您的框架 - 📚 **始终保持最新** —— 文档更改时,几分钟内更新上下文 ## 主要特性 ### 🌐 文档抓取 - ✅ **智能 SPA 发现** - 针对 JavaScript SPA 站点的三层发现(sitemap.xml → llms.txt → 无头浏览器渲染) - ✅ **llms.txt 支持** - 自动检测并使用 LLM 就绪的文档文件(快 10 倍) - ✅ **通用抓取器** - 适用于任何文档网站 - ✅ **智能分类** - 按主题自动组织内容 - ✅ **代码语言检测** - 识别 Python, JavaScript, C++, GDScript 等 - ✅ **24+ 开箱即用预设** - Godot, React, Vue, Django, FastAPI 等 ### 📄 PDF 支持 - ✅ **基本 PDF 提取** - 从 PDF 文件提取文本、代码和图像 - ✅ **扫描 PDF 的 OCR** - 从扫描文档中提取文本 - ✅ **密码保护的 PDF** - 处理加密的 PDF - ✅ **表格提取** - 从 PDF 中提取复杂表格 - ✅ **并行处理** - 大型 PDF 处理速度提升 3 倍 - ✅ **智能缓存** - 重复运行快 50% ### 🎬 视频提取 - ✅ **YouTube 与本地视频** - 从视频中提取转录、屏幕代码和结构化知识 - ✅ **视觉帧分析** - 从代码编辑器、终端、幻灯片和图表进行 OCR 提取 - ✅ **GPU 自动检测** - 自动安装正确的 PyTorch 构建(CUDA/ROCm/MPS/CPU) - ✅ **AI 增强** - 两遍处理:清理 OCR 伪影 + 生成润色后的 SKILL.md - ✅ **时间剪辑** - 使用 `--start-time` 和 `--end-time` 提取特定片段 - ✅ **播放列表支持** - 批量处理 YouTube 播放列表中的所有视频 - ✅ **视觉 API 回退** - 对低置信度 OCR 帧使用 Claude Vision ### 🐙 GitHub 仓库分析 - ✅ **深度代码分析** - 对 Python, JavaScript, TypeScript, Java, C++, Go 进行 AST 解析 - ✅ **API 提取** - 函数、类、方法及其参数和类型 - ✅ **仓库元数据** - README、文件树、语言分布、星标/分叉 - ✅ **GitHub Issues 与 PRs** - 获取带有标签和里程碑的开放/关闭 issues - ✅ **CHANGELOG 与 Releases** - 自动提取版本历史 - ✅ **冲突检测** - 比较文档 API 与实际代码实现 - ✅ **CP 集成** - 自然语言:“抓取 GitHub 仓库 facebook/react” ### 🔄 统一多源抓取 - ✅ **结合多种来源** - 在一个技能中混合文档 + GitHub + PDF - ✅ **冲突检测** - 自动发现文档与代码之间的差异 - ✅ **智能合并** - 基于规则或 AI 驱动的冲突解决 - ✅ **透明报告** - 带有 ⚠️ 警告的并排比较 - ✅ **文档缺口分析** - 识别过时文档和未记录的功能 - ✅ **单一事实来源** - 一个技能同时展示意图(文档)和现实(代码) - ✅ **向后兼容** - 旧版单一来源配置仍然有效 ### 🤖 多 LLM 平台支持 - ✅ **12 个 LLM 平台** - Claude AI, Google Gemini, OpenAI ChatGPT, MiniMax AI, Generic Markdown, OpenCode, Kimi (Moonshot AI), DeepSeek AI, Qwen (Alibaba), OpenRouter, Together AI, Fireworks AI - ✅ **通用抓取** - 同一文档适用于所有平台 - ✅ **特定平台打包** - 针对 LLM 优化的格式 - ✅ **一键导出** - `--target` 标志选择平台 - ✅ **可选依赖** - 仅安装所需内容 - ✅ **100% 向后兼容** - 现有 Claude 工作流不变 | 平台 | 格式 | 上传 | 增强 | API Key | 自定义端点 | |----------|--------|--------|-------------|---------|-----------------| | **Claude AI** | ZIP + YAML | ✅ 自动 | ✅ 是 | ANTHROPIC_API_KEY | ANTHROPIC_BASE_URL | | **Google Gemini** | tar.gz | ✅ 自动 | ✅ 是 | GOOGLE_API_KEY | - | | **OpenAI ChatGPT** | ZIP + Vector Store | ✅ 自动 | ✅ 是 | OPENAI_API_KEY | - | | **MiniMax AI** | ZIP + Knowledge Files | ✅ 自动 | ✅ 是 | MINIMAX_API_KEY | - | | **Generic Markdown** | ZIP | ❌ 手动 | ❌ 否 | - | - | ``` # Claude(默认 - 无需更改!) skill-seekers package output/react/ skill-seekers upload react.zip # Google Gemini pip install skill-seekers[gemini] skill-seekers package output/react/ --target gemini skill-seekers upload react-gemini.tar.gz --target gemini # OpenAI ChatGPT pip install skill-seekers[openai] skill-seekers package output/react/ --target openai skill-seekers upload react-openai.zip --target openai # MiniMax AI pip install skill-seekers[minimax] skill-seekers package output/react/ --target minimax skill-seekers upload react-minimax.zip --target minimax # 通用 Markdown(通用导出) skill-seekers package output/react/ --target markdown # 在任何 LLM 中直接使用 markdown 文件 ```
🔧 Claude 兼容 API 的环境变量(例如 GLM-4.7) Skill Seekers 支持任何 Claude 兼容的 API 端点: ``` # 选项 1:官方 Anthropic API(默认) export ANTHROPIC_API_KEY=sk-ant-... # 选项 2:GLM-4.7 Claude 兼容 API export ANTHROPIC_API_KEY=your-glm-47-api-key export ANTHROPIC_BASE_URL=https://glm-4-7-endpoint.com/v1 # 所有 AI 增强功能将使用配置的端点 skill-seekers enhance output/react/ skill-seekers analyze --directory . --enhance ``` **注意**:设置 `ANTHROPIC_BASE_URL` 允许您使用任何 Claude 兼容的 API 端点,例如 GLM-4.7(智谱 AI)或其他兼容服务。
**安装:** ``` # 安装 Gemini 支持 pip install skill-seekers[gemini] # 安装 OpenAI 支持 pip install skill-seekers[openai] # 安装 MiniMax 支持 pip install skill-seekers[minimax] # 安装所有 LLM 平台支持 pip install skill-seekers[all-llms] ``` ### 🔗 RAG 框架集成 - ✅ **LangChain Documents** - 直接导出为带有 `page_content` + 元数据的 `Document` 格式 - 适用于:QA 链、检索器、向量存储、代理 - 示例:[LangChain RAG 流水线](examples/langchain-rag-pipeline/) - 指南:[LangChain 集成](docs/integrations/LANGCHAIN.md) - ✅ **LlamaIndex TextNodes** - 导出为带有唯一 ID + 嵌入的 `TextNode` 格式 - 适用于:查询引擎、聊天引擎、存储上下文 - 示例:[LlamaIndex 查询引擎](examples/llama-index-query-engine/) - 指南:[LlamaIndex 集成](docs/integrations/LLAMA_INDEX.md) - ✅ **Pinecone 就绪格式** - 针对向量数据库更新优化 - 适用于:生产向量搜索、语义搜索、混合搜索 - 示例:[Pinecone 更新](examples/pinecone-upsert/) - 指南:[Pinecone 集成](docs/integrations/PINECONE.md) **快速导出:** ``` # LangChain Documents (JSON) skill-seekers package output/django --target langchain # → output/django-langchain.json # LlamaIndex TextNodes (JSON) skill-seekers package output/django --target llama-index # → output/django-llama-index.json # Markdown (Universal) skill-seekers package output/django --target markdown # → output/django-markdown/SKILL.md + references/ ``` **完整 RAG 流水线指南:** [RAG 流水线文档](docs/integrations/RAG_PIPELINES.md) ### 🧠 AI 编程助手集成 将任何框架文档转化为 4+ AI 助手的专家编程上下文: - ✅ **Cursor IDE** - 为 AI 驱动的代码建议生成 `.cursorrules` - 适用于:特定框架的代码生成、一致的模式 - 兼容:Cursor IDE(VS Code 分支) - 指南:[Cursor 集成](docs/integrations/CURSOR.md) - 示例:[Cursor React 技能](examples/cursor-react-skill/) - ✅ **Windsurf** - 使用 `.windsurfrules` 定制 Windsurf 的 AI 助手上下文 - 适用于:IDE 原生 AI 辅助、流式编程 - 兼容:Codeium 的 Windsurf IDE - 指南:[Windsurf 集成](docs/integrations/WINDSURF.md) - 示例:[Windsurf FastAPI 上下文](examples/windsurf-fastapi-context/) - ✅ **Cline (VS Code)** - VS Code 代理的系统提示 + MCP - 适用于:VS Code 中的代理式代码生成 - 兼容:VS Code 的 Cline 扩展 - 指南:[Cline 集成](docs/integrations/CLINE.md) - 示例:[Cline Django 助手](examples/cline-django-assistant/) - ✅ **Continue.dev** - IDE 无关 AI 的上下文服务器 - 适用于:多 IDE 环境(VS Code, JetBrains, Vim),自定义 LLM 提供商 - 兼容:任何带有 Continue.dev 插件的 IDE - 指南:[Continue 集成](docs/integrations/CONTINUE_DEV.md) - 示例:[Continue 通用上下文](examples/continue-dev-universal/) **AI 编程工具快速导出:** ``` # 适用于任何 AI 编码助手(Cursor, Windsurf, Cline, Continue.dev) skill-seekers scrape --config configs/django.json skill-seekers package output/django --target claude # or --target markdown # 复制到你的项目(以 Cursor 为例) cp output/django-claude/SKILL.md my-project/.cursorrules # 或者用于 Windsurf cp output/django-claude/SKILL.md my-project/.windsurf/rules/django.md # 或者用于 Cline cp output/django-claude/SKILL.md my-project/.clinerules # 或者用于 Continue.dev(HTTP 服务器) python examples/continue-dev-universal/context_server.py # 在 ~/.continue/config.json 中配置 ``` **集成中心:** [所有 AI 系统集成](docs/integrations/INTEGRATIONS.md) ### 🌊 三流 GitHub 架构 - ✅ **三流分析** - 将 GitHub 仓库拆分为代码、文档和洞察流 - ✅ **统一代码库分析器** - 同时支持 GitHub URL 和本地路径 - ✅ **C3.x 分析深度** - 选择“basic”(1-2 分钟)或“c3x”(20-60 分钟)分析 - ✅ **增强路由生成** - GitHub 元数据、README 快速入门、常见问题 - ✅ **Issue 集成** - 来自 GitHub issues 的热门问题和解决方案 - ✅ **智能路由关键词** - GitHub 标签权重加倍,以更好地检测主题 **三流说明:** - **流 1:代码** - 深度 C3.x 分析(模式、示例、指南、配置、架构) - **流 2:文档** - 仓库文档(README, CONTRIBUTING, docs/*.md) - **流 3:洞察** - 社区知识(issues、标签、星标、分叉) ``` from skill_seekers.cli.unified_codebase_analyzer import UnifiedCodebaseAnalyzer # 使用所有三个流分析 GitHub 仓库 analyzer = UnifiedCodebaseAnalyzer() result = analyzer.analyze( source="https://github.com/facebook/react", depth="c3x", # or "basic" for fast analysis fetch_github_metadata=True ) # 访问代码流(C3.x 分析) print(f"Design patterns: {len(result.code_analysis['c3_1_patterns'])}") print(f"Test examples: {result.code_analysis['c3_2_examples_count']}") # 访问文档流(仓库文档) print(f"README: {result.github_docs['readme'][:100]}") # 访问洞察流(GitHub 元数据) print(f"Stars: {result.github_insights['metadata']['stars']}") print(f"Common issues: {len(result.github_insights['common_problems'])}") ``` **查看完整文档**:[三流实现摘要](docs/IMPLEMENTATION_SUMMARY_THREE_STREAM.md) ### 🔐 智能速率限制管理与配置 - ✅ **多 Token 配置系统** - 管理多个 GitHub 账户(个人、工作、OSS) - 安全配置存储于 `~/.config/skill-seekers/config.json`(600 权限) - 每个配置文件的速率限制策略:`prompt`、`wait`、`switch`、`fail` - 可配置每个配置文件的超时时间(默认:30 分钟,防止无限期等待) - 智能回退链:CLI 参数 → 环境变量 → 配置文件 → 提示 - Claude, Gemini, OpenAI 的 API key 管理 - ✅ **交互式配置向导** - 美观的终端 UI,易于设置 - 用于 token 创建的浏览器集成(自动打开 GitHub 等) - Token 验证和连接测试 - 带有颜色编码的可视化状态显示 - ✅ **智能速率限制处理器** - 不再无限期等待! - 关于速率限制的前置警告(60/小时 vs 5000/小时) - 来自 GitHub API 响应的实时检测 - 带有进度的实时倒计时计时器 - 受限时自动切换配置文件 - 四种策略:prompt(询问)、wait(倒计时)、switch(尝试其他)、fail(中止) - ✅ **恢复能力** - 继续中断的任务 - 以可配置间隔自动保存进度(默认:60 秒) - 列出所有可恢复的任务及其进度详情 - 自动清理旧任务(默认:7 天) - ✅ **CI/CD 支持** - 用于自动化的非交互模式 - `--non-interactive` 标志快速失败,不进行提示 - `--profile` 标志选择特定的 GitHub 账户 - 为流水线日志提供清晰的错误消息 **快速设置:** ``` # 一次性配置(5 分钟) skill-seekers config --github # 为私有仓库使用特定配置文件 skill-seekers github --repo mycompany/private-repo --profile work # CI/CD 模式(快速失败,无提示) skill-seekers github --repo owner/repo --non-interactive # 恢复中断的任务 skill-seekers resume --list skill-seekers resume github_react_20260117_143022 ``` **速率限制策略说明:** - **prompt**(默认)- 受限时询问操作(等待、切换、设置 token、取消) - **wait** - 自动等待并显示倒计时计时器(遵守超时) - **switch** - 自动尝试下一个可用的配置文件(用于多账户设置) - **fail** - 立即失败并显示清晰错误(非常适合 CI/CD) ### 🎯 引导技能 - 自托管 将 skill-seekers 生成为技能,在您的 AI 代理(Claude Code, Kimi, Codex 等)中使用: ``` # 生成技能 ./scripts/bootstrap_skill.sh # 安装到 Claude Code cp -r output/skill-seekers ~/.claude/skills/ ``` **您将获得:** - ✅ **完整的技能文档** - 所有 CLI 命令和使用模式 - ✅ **CLI 命令参考** - 记录每个工具及其选项 - ✅ **快速入门示例** - 常见工作流和最佳实践 - ✅ **自动生成的 API 文档** - 代码分析、模式和示例 ### 🔐 私有配置仓库 - ✅ **基于 Git 的配置源** - 从私有/团队 git 仓库获取配置 - ✅ **多源管理** - 注册无限多的 GitHub, GitLab, Bitbucket 仓库 - ✅ **团队协作** - 在 3-5 人团队间共享自定义配置 - ✅ **企业支持** - 扩展至 500+ 开发者,支持基于优先级的解析 - ✅ **安全认证** - 环境变量 token(GITHUB_TOKEN, GITLAB_TOKEN) - ✅ **智能缓存** - 仅克隆一次,自动拉取更新 - ✅ **离线模式** - 离线时使用缓存的配置 ### 🤖 代码库分析 (C3.x) **C3.4:配置模式提取与 AI 增强** - ✅ **9 种配置格式** - JSON, YAML, TOML, ENV, INI, Python, JavaScript, Dockerfile, Docker Compose - ✅ **7 种模式类型** - 数据库、API、日志、缓存、邮件、认证、服务器配置 - ✅ **AI 增强** - 可选双模式 AI 分析(API + LOCAL) - 解释每个配置的作用 - 建议最佳实践和改进 - **安全分析** - 发现硬编码密钥、暴露的凭证 - ✅ **自动文档生成** - 生成所有配置的 JSON + Markdown 文档 - ✅ **MCP 集成** - 支持增强功能的 `extract_config_patterns` 工具 **C3.3:AI 增强的操作指南** - ✅ **全面的 AI 增强** - 将基本指南转化为专业教程 - ✅ **5 项自动改进** - 步骤描述、故障排除、前置条件、后续步骤、用例 - ✅ **双模式支持** - API 模式(Claude API)或 LOCAL 模式(Claude Code CLI) - ✅ **LOCAL 模式无 API 费用** - 使用您的 Claude Code Max 计划免费增强 - ✅ **质量转化** - 75 行模板 → 500+ 行综合指南 **用法:** ``` # 快速分析(1-2 分钟,仅限基础功能) skill-seekers analyze --directory tests/ --quick # 使用 AI 进行全面分析(20-60 分钟,所有功能) skill-seekers analyze --directory tests/ --comprehensive # 带 AI 增强 skill-seekers analyze --directory tests/ --enhance ``` **完整文档:** [docs/HOW_TO_GUIDES.md](docs/HOW_TO_GUIDES.md#ai-enhancement-new) ### 🔄 增强工作流预设 可重用的 YAML 定义增强流水线,控制 AI 如何将原始文档转化为润色后的技能。 - ✅ **5 个内置预设** — `default`, `minimal`, `security-focus`, `architecture-comprehensive`, `api-documentation` - ✅ **用户自定义预设** — 将自定义工作流添加到 `~/.config/skill-seekers/workflows/` - ✅ **多工作流** — 在一条命令中链接两个或更多工作流 - ✅ **完全托管的 CLI** — 列出、检查、复制、添加、移除和验证工作流 ``` # 应用单个工作流 skill-seekers create ./my-project --enhance-workflow security-focus # 链接多个工作流(按顺序应用) skill-seekers create ./my-project \ --enhance-workflow security-focus \ --enhance-workflow minimal # 管理预设 skill-seekers workflows list # List all (bundled + user) skill-seekers workflows show security-focus # Print YAML content skill-seekers workflows copy security-focus # Copy to user dir for editing skill-seekers workflows add ./my-workflow.yaml # Install a custom preset skill-seekers workflows remove my-workflow # Remove a user preset skill-seekers workflows validate security-focus # Validate preset structure # 一次复制多个 skill-seekers workflows copy security-focus minimal api-documentation # 一次添加多个文件 skill-seekers workflows add ./wf-a.yaml ./wf-b.yaml # 一次移除多个 skill-seekers workflows remove my-wf-a my-wf-b ``` **YAML 预设格式:** ``` name: security-focus description: "Security-focused review: vulnerabilities, auth, data handling" version: "1.0" stages: - name: vulnerabilities type: custom prompt: "Review for OWASP top 10 and common security vulnerabilities..." - name: auth-review type: custom prompt: "Examine authentication and authorisation patterns..." uses_history: true ``` ### ⚡ 性能与规模 - ✅ **异步模式** - 使用 async/await 进行 2-3 倍快的抓取(使用 `--async` 标志) - ✅ **大型文档支持** - 通过智能拆分处理 10K-40K+ 页文档 - ✅ **路由器/Hub 技能** - 智能路由到专门的子技能 - ✅ **并行抓取** - 同时处理多个技能 - ✅ **检查点/恢复** - 长时间抓取永不丢失进度 - ✅ **缓存** - 抓取一次,即时重建 ### 🤖 代理无关技能生成 - ✅ **多代理支持** - 通过 `--agent` 标志为 Claude, Kimi, Codex, Copilot, OpenCode 或任何自定义代理生成技能 - ✅ **自定义代理命令** - 使用 `--agent-cmd` 指定用于增强的自定义代理 CLI 命令 - ✅ **通用标志** - `--agent` 和 `--agent-cmd` 在所有命令上可用(create, scrape, github, pdf 等) ### 📦 市场流水线 - ✅ **发布到市场** - 将技能发布到 Claude Code 插件市场仓库 - ✅ **端到端流水线** - 从文档源到已发布的市场条目 ### ✅ 质量保证 - ✅ **全面测试** - 2,540+ 测试,覆盖全面 ## 📦 安装 ``` # 基础安装(文档抓取、GitHub 分析、PDF、打包) pip install skill-seekers # 包含所有 LLM 平台支持 pip install skill-seekers[all-llms] # 包含 MCP server pip install skill-seekers[mcp] # 全部 pip install skill-seekers[all] ``` **需要帮助选择?** 运行设置向导: ``` skill-seekers-setup ``` ### 安装选项 | 安装 | 功能 | |---------|----------| | `pip install skill-seekers` | 抓取、GitHub 分析、PDF、所有平台 | | `pip install skill-seekers[gemini]` | + Google Gemini 支持 | | `pip install skill-seekers[openai]` | + OpenAI ChatGPT 支持 | | `pip install skill-seekers[all-llms]` | + 所有 LLM 平台 | | `pip install skill-seekers[mcp]` | + Claude Code, Cursor 等的 MCP 服务器 | | `pip install skill-seekers[video]` | + YouTube/Vimeo 转录和元数据提取 | | `pip install skill-seekers[video-full]` | + Whisper 转录和视觉帧提取 | | `pip install skill-seekers[jupyter]` | + Jupyter Notebook 支持 | | `pip install skill-seekers[pptx]` | + PowerPoint 支持 | | `pip install skill-seekers[confluence]` | + Confluence wiki 支持 | | `pip install skill-seekers[notion]` | + Notion 页面支持 | | `pip install skill-seekers[rss]` | + RSS/Atom 源支持 | | `pip install skill-seekers[chat]` | + Slack/Discord 聊天导出支持 | | `pip install skill-seekers[asciidoc]` | + AsciiDoc 文档支持 | | `pip install skill-seekers[all]` | 启用所有功能 | ## 🚀 一键安装工作流 **从配置到上传技能的最快方式 - 全自动化:** ``` # 从官方配置安装 React 技能(自动上传到 Claude) skill-seekers install --config react # 从本地配置文件安装 skill-seekers install --config configs/custom.json # 仅安装不上传(仅打包) skill-seekers install --config django --no-upload # 预览工作流而不执行 skill-seekers install --config react --dry-run ``` **时间:** 总计 20-45 分钟 | **质量:** 生产就绪 (9/10) | **成本:** 免费 **执行的阶段:** ``` 📥 PHASE 1: Fetch Config (if config name provided) 📖 PHASE 2: Scrape Documentation ✨ PHASE 3: AI Enhancement (MANDATORY - no skip option) 📦 PHASE 4: Package Skill ☁️ PHASE 5: Upload to Claude (optional, requires API key) ``` **要求:** - ANTHROPIC_API_KEY 环境变量(用于自动上传) - Claude Code Max 计划(用于本地 AI 增强),或使用 `--agent` 选择不同的 AI 代理 ## 📊 功能矩阵 Skill Seekers 支持 **12 个 LLM 平台**、**17 种源类型**,并在所有目标上保持完整的功能对等性。 **平台:** Claude AI, Google Gemini, OpenAI ChatGPT, MiniMax AI, Generic Markdown, OpenCode, Kimi (Moonshot AI), DeepSeek AI, Qwen (Alibaba), OpenRouter, Together AI, Fireworks AI **源类型:** 文档网站、GitHub 仓库、PDF、Word (.docx)、EPUB、视频、本地代码库、Jupyter Notebooks、本地 HTML、OpenAPI/Swagger、AsciiDoc、PowerPoint (.pptx)、RSS/Atom 源、Man pages、Confluence wikis、Notion 页面、Slack/Discord 聊天导出 有关详细的平台和功能支持,请参阅 [完整功能矩阵](docs/FEATURE_MATRIX.md)。 ### 快速平台比较 | 功能 | Claude | Gemini | OpenAI | MiniMax | Markdown | |---------|--------|--------|--------|--------|----------| | 格式 | ZIP + YAML | tar.gz | ZIP + Vector | ZIP + Knowledge | ZIP | | 上传 | ✅ API | ✅ API | ✅ API | ✅ API | ❌ 手动 | | 增强 | ✅ Sonnet 4 | ✅ 2.0 Flash | ✅ GPT-4o | ✅ M2.7 | ❌ 无 | | 所有技能模式 | ✅ | ✅ | ✅ | ✅ | ✅ | ## 用法示例 ### 文档抓取 ``` # 抓取文档网站 skill-seekers scrape --config configs/react.json # 无配置快速抓取 skill-seekers scrape --url https://react.dev --name react # 使用异步模式(快 3 倍) skill-seekers scrape --config configs/godot.json --async --workers 8 # 使用特定的 AI 代理进行增强 skill-seekers scrape --config configs/react.json --agent kimi ``` ### PDF 提取 ``` # 基础 PDF 提取 skill-seekers pdf --pdf docs/manual.pdf --name myskill # 高级功能 skill-seekers pdf --pdf docs/manual.pdf --name myskill \ --extract-tables \ # Extract tables --parallel \ # Fast parallel processing --workers 8 # Use 8 CPU cores # 扫描版 PDF(需要:pip install pytesseract Pillow) skill-seekers pdf --pdf docs/scanned.pdf --name myskill --ocr ``` ### 视频提取 ``` # 安装视频支持 pip install skill-seekers[video] # Transcripts + metadata pip install skill-seekers[video-full] # + Whisper + visual frame extraction # 自动检测 GPU 并安装视觉依赖(PyTorch + easyocr) skill-seekers video --setup # 从 YouTube 视频提取 skill-seekers video --url https://www.youtube.com/watch?v=dQw4w9WgXcQ --name mytutorial # 从 YouTube 播放列表提取 skill-seekers video --playlist https://www.youtube.com/playlist?list=... --name myplaylist # 从本地视频文件提取 skill-seekers video --video-file recording.mp4 --name myrecording # 使用视觉帧分析提取(需要 video-full 依赖) skill-seekers video --url https://www.youtube.com/watch?v=... --name mytutorial --visual # 带 AI 增强(清洗 OCR + 生成润色后的 SKILL.md) skill-seekers video --url https://www.youtube.com/watch?v=... --visual --enhance-level 2 # 截取视频的特定片段(支持秒、MM:SS、HH:MM:SS) skill-seekers video --url https://www.youtube.com/watch?v=... --start-time 1:30 --end-time 5:00 # 对低置信度 OCR 帧使用 Vision API(需要 ANTHROPIC_API_KEY) skill-seekers video --url https://www.youtube.com/watch?v=... --visual --vision-ocr # 从先前提取的数据重新构建技能(跳过下载) skill-seekers video --from-json output/mytutorial/video_data/extracted_data.json --name mytutorial ``` ### GitHub 仓库分析 ``` # 基础仓库抓取 skill-seekers github --repo facebook/react # 带身份验证(更高速率限制) export GITHUB_TOKEN=ghp_your_token_here skill-seekers github --repo facebook/react # 自定义包含内容 skill-seekers github --repo django/django \ --include-issues \ # Extract GitHub Issues --max-issues 100 \ # Limit issue count --include-changelog # Extract CHANGELOG.md ``` ### 统一多源抓取 **结合文档 + GitHub + PDF 为一个带有冲突检测的统一技能:** ``` # 使用现有的统一配置 skill-seekers unified --config configs/react_unified.json skill-seekers unified --config configs/django_unified.json # 或创建统一配置 cat > configs/myframework_unified.json << 'EOF' { "name": "myframework", "merge_mode": "rule-based", "sources": [ { "type": "documentation", "base_url": "https://docs.myframework.com/", "max_pages": 200 }, { "type": "github", "repo": "owner/myframework", "code_analysis_depth": "surface" } ] } EOF skill-seekers unified --config configs/myframework_unified.json ``` **冲突检测自动发现:** - 🔴 **代码中缺失**(高):已记录但未实现 - 🟡 **文档中缺失**(中):已实现但未记录 - ⚠️ **签名不匹配**:不同的参数/类型 - ℹ️ **描述不匹配**:不同的解释 **完整指南:** 有关完整文档,请参阅 [docs/UNIFIED_SCRAPING.md](docs/UNIFIED_SCRAPING.md)。 ### 私有配置仓库 **使用私有 git 仓库在团队间共享自定义配置:** ``` # 选项 1:使用 MCP 工具(推荐) # 注册你团队的私有仓库 add_config_source( name="team", git_url="https://github.com/mycompany/skill-configs.git", token_env="GITHUB_TOKEN" ) # 从团队仓库获取配置 fetch_config(source="team", config_name="internal-api") ``` **支持的平台:** - GitHub (`GITHUB_TOKEN`), GitLab (`GITLAB_TOKEN`), Gitea (`GITEA_TOKEN`), Bitbucket (`BITBUCKET_TOKEN`) **完整指南:** 有关完整文档,请参阅 [docs/GIT_CONFIG_SOURCES.md](docs/GIT_CONFIG_SOURCES.md)。 ## 工作原理 ``` graph LR A[Documentation Website] --> B[Skill Seekers] B --> C[Scraper] B --> D[AI Enhancement] B --> E[Packager] C --> F[Organized References] D --> F F --> E E --> G[AI Skill .zip] G --> H[Upload to AI Platform] ``` 0. **检测 llms.txt** - 首先检查 llms-full.txt, llms.txt, llms-small.txt(智能 SPA 发现的一部分) 1. **抓取**:从文档中提取所有页面 2. **分类**:将内容组织成主题(API、指南、教程等) 3. **增强**:AI 分析文档并创建包含示例的综合 SKILL.md(通过 `--agent` 支持多个代理) 4. **打包**:将所有内容打包成平台就绪的 `.zip` 文件 ## 架构 系统由 **8 个核心模块**和 **5 个实用模块**组成(约 200 个类): ![Package Overview](https://static.pigsec.cn/wp-content/uploads/repos/2026/04/3688a5f4f0080858.png) | 模块 | 用途 | 关键类 | |--------|---------|-------------| | **CLICore** | Git 风格命令调度器 | `CLIDispatcher`, `SourceDetector`, `CreateCommand` | | **Scrapers** | 17 种源类型提取器 | `DocToSkillConverter`, `GitHubScraper`, `UnifiedScraper` | | **Adaptors** | 20+ 输出平台格式 | `SkillAdaptor` (ABC), `ClaudeAdaptor`, `LangChainAdaptor` | | **Analysis** | C3.x 代码库分析流水线 | `UnifiedCodebaseAnalyzer`, `PatternRecognizer`, 10 GoF 检测器 | | **Enhancement** | 通过 `AgentClient` 进行 AI 驱动的技能改进 | `AgentClient`, `AIEnhancer`, `UnifiedEnhancer`, `WorkflowEngine` | | **Packaging** | 打包、上传、安装技能 | `PackageSkill`, `InstallAgent` | | **MCP** | FastMCP 服务器(40 个工具) | `SkillSeekerMCPServer`, 10 个工具模块 | | **Sync** | 文档更改检测 | `ChangeDetector`, `SyncMonitor`, `Notifier` | 实用模块:**Parsers**(28 个 CLI 解析器)、**Storage**(S3/GCS/Azure)、**Embedding**(多提供商向量)、**Benchmark**(性能)、**Utilities**(16 个共享助手)。 完整 UML 图:**[docs/UML_ARCHITECTURE.md](docs/UML_ARCHITECTURE.md)** | StarUML 项目:`docs/UML/skill_seekers.mdj` | HTML API 参考:`docs/UML/html/` ## 📋 前置条件 **开始之前,请确保您具备:** 1. **Python 3.10 或更高版本** - [下载](https://www.python.org/downloads/) | 检查:`python3 --version` 2. **Git** - [下载](https://git-scm.com/) | 检查:`git --version` 3. **15-30 分钟** 用于首次设置 **首次使用?** → **[从这里开始:无懈可击的快速入门指南](BULLETPROOF_QUICKSTART.md)** 🎯 ## 📤 将技能上传到 Claude 技能打包完成后,您需要将其上传到 Claude: ### 选项 1:自动上传(基于 API) ``` # 设置你的 API 密钥(一次性) export ANTHROPIC_API_KEY=sk-ant-... # 自动打包并上传 skill-seekers package output/react/ --upload # 或上传现有的 .zip skill-seekers upload output/react.zip ``` ### 选项 2:手动上传(无 API Key) ``` # 打包技能 skill-seekers package output/react/ # → 创建 output/react.zip # 然后手动上传: # - 前往 https://claude.ai/skills # - 点击 "Upload Skill" # - 选择 output/react.zip ``` ### 选项 3:MCP (Claude Code) ``` In Claude Code, just ask: "Package and upload the React skill" ``` ## 🤖 安装到 AI 代理 Skill Seekers 可以自动将技能安装到 18 个 AI 编程代理。 ``` # 安装到特定代理 skill-seekers install-agent output/react/ --agent cursor # 一次性安装到所有代理 skill-seekers install-agent output/react/ --agent all # 预览而不安装 skill-seekers install-agent output/react/ --agent cursor --dry-run ``` ### 支持的代理 | 代理 | 路径 | 类型 | |-------|------|------| | **Claude Code** | `~/.claude/skills/` | 全局 | | **Cursor** | `.cursor/skills/` | 项目 | | **VS Code / Copilot** | `.github/skills/` | 项目 | | **Amp** | `~/.amp/skills/` | 全局 | | **Goose** | `~/.config/goose/skills/` | 全局 | | **OpenCode** | `~/.opencode/skills/` | 全局 | | **Windsurf** | `~/.windsurf/skills/` | 全局 | | **Roo Code** | `.roo/skills/` | 项目 | | **Cline** | `.cline/skills/` | 项目 | | **Aider** | `~/.aider/skills/` | 全局 | | **Bolt** | `.bolt/skills/` | 项目 | | **Kilo Code** | `.kilo/skills/` | 项目 | | **Continue** | `~/.continue/skills/` | 全局 | | **Kimi Code** | `~/.kimi/skills/` | 全局 | ## 🔌 MCP 集成(26 个工具) Skill Seekers 内置 MCP 服务器,可从 Claude Code, Cursor, Windsurf, VS Code + Cline 或 IntelliJ IDEA 使用。 ``` # stdio 模式(Claude Code, VS Code + Cline) python -m skill_seekers.mcp.server_fastmcp # HTTP 模式(Cursor, Windsurf, IntelliJ) python -m skill_seekers.mcp.server_fastmcp --transport http --port 8765 # 一次性自动配置所有代理 ./setup_mcp.sh ``` **所有 26 个可用工具:** - **核心 (9):** `list_configs`, `generate_config`, `validate_config`, `estimate_pages`, `scrape_docs`, `package_skill`, `upload_skill`, `enhance_skill`, `install_skill` - **扩展 (10):** `scrape_github`, `scrape_pdf`, `unified_scrape`, `merge_sources`, `detect_conflicts`, `add_config_source`, `fetch_config`, `list_config_sources`, `remove_config_source`, `split_config` - **向量数据库 (4):** `export_to_chroma`, `export_to_weaviate`, `export_to_faiss`, `export_to_qdrant` - **云端 (3):** `cloud_upload`, `cloud_download`, `cloud_list` **完整指南:** [docs/MCP_SETUP.md](docs/MCP_SETUP.md) ## ⚙️ 配置 ### 可用预设(24+) ``` # 列出所有预设 skill-seekers list-configs ``` | 类别 | 预设 | |----------|---------| | **Web 框架** | `react`, `vue`, `angular`, `svelte`, `nextjs` | | **Python** | `django`, `flask`, `fastapi`, `sqlalchemy`, `pytest` | | **游戏开发** | `godot`, `pygame`, `unity` | | **工具与 DevOps** | `docker`, `kubernetes`, `terraform`, `ansible` | | **统一(文档 + GitHub)** | `react-unified`, `vue-unified`, `nextjs-unified` 等 | ### 创建您自己的配置 ``` # 选项 1:交互式 skill-seekers scrape --interactive # 选项 2:复制并编辑预设 cp configs/react.json configs/myframework.json nano configs/myframework.json skill-seekers scrape --config configs/myframework.json ``` ### 配置文件结构 ``` { "name": "myframework", "description": "When to use this skill", "base_url": "https://docs.myframework.com/", "selectors": { "main_content": "article", "title": "h1", "code_blocks": "pre code" }, "url_patterns": { "include": ["/docs", "/guide"], "exclude": ["/blog", "/about"] }, "categories": { "getting_started": ["intro", "quickstart"], "api": ["api", "reference"] }, "rate_limit": 0.5, "max_pages": 500 } ``` ### 配置存储位置 工具按以下顺序搜索: 1. 提供的确切路径 2. `./configs/`(当前目录) 3. `~/.config/skill-seekers/configs/`(用户配置目录) 4. SkillSeekersWeb.com API(预设配置) ## 📊 生成内容 ``` output/ ├── godot_data/ # Scraped raw data │ ├── pages/ # JSON files (one per page) │ └── summary.json # Overview │ └── godot/ # The skill ├── SKILL.md # Enhanced with real examples ├── references/ # Categorized docs │ ├── index.md │ ├── getting_started.md │ ├── scripting.md │ └── ... ├── scripts/ # Empty (add your own) └── assets/ # Empty (add your own) ``` ## 🐛 故障排除 ### 没有提取到内容? - 检查您的 `main_content` 选择器 - 尝试:`article`, `main`, `div[role="main"]` ### 数据存在但无法使用? ``` # 强制重新抓取 rm -rf output/myframework_data/ skill-seekers scrape --config configs/myframework.json ``` ### 分类不佳? 使用更好的关键词编辑配置的 `categories` 部分。 ### 想要更新文档? ``` # 删除旧数据并重新抓取 rm -rf output/godot_data/ skill-seekers scrape --config configs/godot.json ``` ### 增强不工作? ``` # 检查 API 密钥是否已设置 echo $ANTHROPIC_API_KEY # 改用 LOCAL 模式(使用 Claude Code Max,无需 API 密钥) skill-seekers enhance output/react/ --mode LOCAL # 监控后台增强状态 skill-seekers enhance-status output/react/ --watch ``` ### GitHub 速率限制问题? ``` # 设置 GitHub token(5000 请求/小时 vs 匿名 60/小时) export GITHUB_TOKEN=ghp_your_token_here # 或配置多个配置文件 skill-seekers config --github ``` ## 📈 性能 | 任务 | 时间 | 备注 | ------|------|-------| | 抓取(同步) | 15-45 分钟 | 仅首次,基于线程 | | 抓取(异步) | 5-15 分钟 | 使用 `--async` 标志快 2-3 倍 | | 构建 | 1-3 分钟 | 从缓存快速重建 | | 重建 | <1 分钟 | 使用 `--skip-scrape` | | 增强(LOCAL) | 30-60 秒 | 使用 Claude Code Max | | 增强(API) | 20-40 秒 | 需要 API key | | 视频(转录) | 1-3 分钟 | YouTube/本地,仅转录 | | 视频(视觉) | 5-15 分钟 | + OCR 帧提取 | | 打包 | 5-10 秒 | 最终 .zip 创建 | ## 📚 文档 ### 入门 - **[BULLETPROOF_QUICKSTART.md](BULLETPROOF_QUICKSTART.md)** - 🎯 如果您是新手,**从这里开始**! - **[QUICKSTART.md](QUICKSTART.md)** - 面向经验丰富用户的快速入门 - **[TROUBLESHOOTING.md](TROUBLESHOOTING.md)** - 常见问题和解决方案 - **[docs/QUICK_REFERENCE.md](docs/QUICK_REFERENCE.md)** - 单页速查表 ### 架构 - **[docs/UML_ARCHITECTURE.md](docs/UML_ARCHITECTURE.md)** - 包含 14 个图表的 UML 架构概述 - **[docs/UML/exports/](docs/UML/exports/)** - PNG 图表导出(包概述 + 13 个类图) - **[docs/UML/html/](docs/UML/html/index.html/index.html)** - 完整 HTML API 参考(所有类、操作、属性) - **[docs/UML/skill_seekers.mdj](docs/UML/skill_seekers.mdj)** - StarUML 项目文件(使用 [StarUML](https://staruml.io/) 打开) ### 指南 - **[docs/LARGE_DOCUMENTATION.md](docs/LARGE_DOCUMENTATION.md)** - 处理 10K-40K+ 页文档 - **[ASYNC_SUPPORT.md](ASYNC_SUPPORT.md)** - 异步模式指南(快 2-3 倍抓取) - **[docs/ENHANCEMENT_MODES.md](docs/ENHANCEMENT_MODES.md)** - AI 增强模式指南 - **[docs/MCP_SETUP.md](docs/MCP_SETUP.md)** - MCP 集成设置 - **[docs/UNIFIED_SCRAPING.md](docs/UNIFIED_SCRAPING.md)** - 多源抓取 - **[docs/VIDEO_GUIDE.md](docs/VIDEO_GUIDE.md)** - 视频提取指南 ### 集成指南 - **[docs/integrations/LANGCHAIN.md](docs/integrations/LANGCHAIN.md)** - LangChain RAG - **[docs/integrations/CURSOR.md](docs/integrations/CURSOR.md)** - Cursor IDE - **[docs/integrations/WINDSURF.md](docs/integrations/WINDSURF.md)** - Windsurf IDE - **[docs/integrations/CLINE.md](docs/integrations/CLINE.md)** - Cline (VS Code) - **[docs/integrations/RAG_PIPELINES.md](docs/integrations/RAG_PIPELINES.md)** - 所有 RAG 流水线 ## 📝 许可证 MIT 许可证 - 详情见 [LICENSE](LICENSE) 文件 祝您构建技能愉快!🚀 ## 🔒 安全 [![MseeP.ai Security Assessment Badge](https://mseep.net/pr/yusufkaraaslan-skill-seekers-badge.png)](https://mseep.ai/app/yusufkaraaslan-skill-seekers)
标签:AI代理, AI助手开发, AI技能, Claude, CVE检测, DLL 劫持, DNS解析, GitHub仓库解析, MCP, PDF解析, Python, RAG, 人工智能, 冲突检测, 大语言模型, 开源项目, 文档解析, 无后门, 模型上下文协议, 用户模式Hook绕过, 知识库构建, 知识提取