Sumanth077/Hands-On-AI-Engineering

GitHub: Sumanth077/Hands-On-AI-Engineering

一个精选的生产级 AI 实战项目合集,涵盖 AI Agents、OCR、RAG、音频和多模态等方向,帮助开发者学习并构建真实 AI 应用。

Stars: 2258 | Forks: 621

Hands-On AI Engineering Banner

# 🚀 实战 AI 工程 [![License: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT) [![PRs Welcome](https://img.shields.io/badge/PRs-welcome-brightgreen.svg)](CONTRIBUTING.md)
一个精选的实用、生产级 AI 项目合集,涵盖多种模态,包括语言模型、多模态模型、OCR 系统、RAG 流水线和 AI Agents。每个项目都旨在帮助您学习、实验并构建真实的 AI 应用。 ## 📋 目录 - [🎯 为什么选择这个仓库?](#-why-this-repository) - [🗂️ 项目分类](#️-project-categories) - [🚀 快速开始](#-getting-started) - [🤝 参与贡献](#-contributing) - [📜 许可证](#-license) ## 🎯 为什么选择这个仓库? - **在实践中学习**:每个项目都包含完整的代码、安装说明和文档 - **生产级**:项目遵循最佳实践,随时可改编用于真实场景 - **多样化的用例**:从 RAG 系统到多 Agent 工作流以及专业应用 - **多个模型提供商**:项目使用 OpenAI、Anthropic、Google 和开源模型 - **活跃的社区**:定期更新和添加新项目 ## 🗂️ 项目分类 ### 🤖 AI Agents 用于各种自动化任务的智能 AI Agents。 - [**多 Agent 金融分析师**](./ai_agents/multi_agent_financial_analyst) — 由专业 Agent 组成的团队,用于全面的金融分析。 - [**FinAgent**](./ai_agents/finagent) — 用于股市分析和洞察的金融助手 Agent。 - [**每日 AI 新闻摘要**](./ai_agents/daily-news-digest) — 自动从 Karpathy 精选的 92 个科技博客获取每日摘要,并在每天早晨发送至 Telegram。MiniMax M2.7 会对过去 24 小时的文章进行评分,并筛选出最重要的 3 个故事。 - [**Agentic 表单填写器**](./ai_agents/agentic-form-filler) — 使用 Landing AI 进行版面解析、MiniMax M2.7 进行多轮数据采集的 Agentic 表单填写 Agent。 - [**AI 旅行规划 Agent**](./ai_agents/ai_travel_planning_agent) — 多 Agent 旅行规划器,可将单个自然语言请求转化为包含航班、酒店和每日行程的完整旅行计划。 - [**竞争情报 Agent**](./ai_agents/competitive_intelligence_agent) — 通过您自身业务背景的视角分析竞争对手,从而生成战略性销售战术卡。 - [**多 Agent 研究助手 (AG2)**](./ai_agents/multi_agent_research_assistant_ag2) — 使用 AG2 的多 Agent 研究流水线,三名专家协作研究任何主题并生成结构化报告。 - [**自我反思的 Agentic RAG**](./ai_agents/agentic_rag_system) — LangGraph RAG 系统,能够对检索到的上下文进行评分,在需要时重写查询,并仅在上下文通过验证后才生成答案。 - [**Agentic SQL 搜索**](./ai_agents/agentic_sql_search) — 由 Gemma 4 驱动的自然语言转 SQL Agent,可针对电子商务数据库编写、执行和解释查询。 - [**股票投资组合分析师**](./ai_agents/stock_portfolio_analyst) — 使用 Agno 和 DeepSeek-V4-Flash 构建的投资组合分析 Agent。通过 YFinance 获取实时市场数据,并生成涵盖盈亏、集中度风险和再平衡建议的报告。 - [**Eagle Eye**](./ai_agents/eagle_eye) — 使用 OpenClaw 和 Telegram 的 GitHub PR 审查 Agent。通过 GitHub MCP 获取 diff,执行带有严重性评级的结构化代码审查,并在用户批准后发布反馈。 - [**CartMate — AI 客服 Agent**](./ai_agents/ai_customer_support_agent) — 由 Mem0 和 Mistral Small 4 构建的记忆增强型电商支持 Agent,能够记住客户并从上次中断的地方继续对话。 - [**多 Agent 编码助手**](./ai_agents/multi_agent_coding_assistant) — 由 Mistral Small 4 和 LangChain 驱动的四阶段编码流水线。Planner、Coder 和 Reviewer Agent 协作生成完善的最终实现。 - [**初创公司分析师**](./ai_agents/startup_analyst) — 由 MiniMax M2.5 驱动的初创公司尽职调查 Agent。使用 Firecrawl 抓取公司网站,并生成涵盖市场地位、财务、团队和风险的投资级报告。 - [**研究团队**](./ai_agents/research_team) — 由 MiniMax M2.5 驱动的多 Agent 研究系统。Seek 在网络上搜索,Scout 浏览内部文档,团队负责人将发现综合成一份结构化报告。 - [**GitHub 情报 Agent**](./ai_agents/github_intelligence_agent) — 由 Gemini 3 Flash 和 GitHub 官方 MCP 服务器驱动的 GitHub 研究 Agent。可以询问有关仓库、贡献者、issues 或代码库的任何问题。 - [**Smolagents 代码 Agent**](./ai_agents/smolagents_code_agent) — 由 Mistral Small 4 和 HuggingFace smolagents 驱动的 Agentic 任务执行器。使用 DuckDuckGo 和 Wikipedia 在每一步编写并执行 Python 代码。 - [**Agent 发现 Agent**](./ai_agents/agent_discovery_agent) — 通过单一自然语言界面跨 NANDA、MCP、Virtuals Protocol、A2A 和 ERC-8004 搜索和比较 AI Agents。由 Gemini 3 Flash 提供支持。 - [**Cal 日程安排 Agent**](./ai_agents/cal_scheduling_agent) — 通过自然语言管理 Cal.com 预约的对话式日程助手。支持预订、重新安排、取消和查询空闲时间,并自动处理时区。 - [**Hacker News 简报 Agent**](./ai_agents/hacker_news_newsletter_agent) — 获取最新的 10 个 Hacker News 报道,使用 Trafilatura 抓取文章全文,通过 Gemma 4 生成结构化的 HTML 简报,并通过 Gmail SMTP 发送到您的收件箱。 - [**酒店查找 Agent**](./ai_agents/hotel_finder_agent) — 通过 Orq.ai 使用 qwen3.6-flash 驱动,结合 Trivago MCP 服务器的对话式酒店搜索 Agent。支持按地点、日期、入住人数、价格范围、星级和设施进行搜索。 - [**营销策略 Agent**](./ai_agents/marketing_strategy_agent) — 多 Agent 营销活动生成器。市场分析师(配合 Serper 网络搜索)、策略官和创意总监按顺序运行,生成市场调研、完整策略和创意活动内容。由 Orq.ai 上的 deepseek-v4-flash 提供支持。 - [**品牌监控器**](./ai_agents/brand_monitor_agent) — 在单次运行中监控 Web、YouTube、Twitter/X 和 LinkedIn 上的品牌提及。Scrapingdog 收集平台数据,DeepSeek V4 Flash 为每个渠道生成结构化的情报简报。 - [**AI 辩论 Agent**](./ai_agents/ai_debate_agent) - 两名 LLM 辩手就您选择的任何话题的对立面进行辩论。裁判对每个回合进行打分并宣布获胜者。 - [**浏览器自动化 Agent**](./ai_agents/browser_automation_agent) - 接收自然语言指令,并使用 browser-use 自主浏览网络以完成任务。 - [**文档问答 Agent**](./ai_agents/documentation_qna_agent) - 通过 URL 与任何文档进行聊天。在 NVIDIA NIM 上使用 Fetch MCP 和 DeepSeek V4 Flash。 - [**职位发布 Agent**](./ai_agents/job_posting_agent) - 在 NVIDIA NIM 上使用 DeepSeek V4 Flash,根据公司名称和角色生成量身定制的职位发布。 - [**LangChain 数据 Agent**](./ai_agents/langchain_data_agent) - 通过对话式 Streamlit 聊天界面用纯英语查询 Chinook SQLite 数据库。 - [**旅行规划 Agent**](./ai_agents/travel_planner_agent) - AI 旅行规划助手,从单个请求中涵盖天气、预算、打包清单和每日行程。 - [**个人财务 Agent**](./ai_agents/personal_finance_agent) - 上传银行流水 CSV,自动对交易进行分类,并就您的支出提出自然语言问题。由 Orq.ai 提供支持、具备 SQLite 持久化能力的 LangChain 工具调用 Agent 驱动。 - [**离线医疗 Agent**](./ai_agents/offline_medical_agent) - 完全离线的 Agentic RAG 系统,用于偏远诊所和野战医院查找临床协议。 ### 📸 OCR 从视觉数据和文档中提取结构和意义。 - [**图像转结构化数据提取器**](./OCR/image_to_structured_data) — 使用 Mistral Large 3 和 Instructor 将图像转换为经过验证的结构化 JSON。 - [**LaTeX 公式 OCR**](./OCR/latex_formula_ocr) — 使用本地视觉语言模型从图像和 PDF 中提取数学公式并转换为 LaTeX。 - [**医疗处方数字化器**](./OCR/medical_prescription_digitizer) — 使用 Mistral Large 3 将手写或打印的处方数字化为结构化输出,并针对 RxNorm 进行实时药物名称验证。 ### 🎧 音频 用于音频理解和分析的项目。 - [**音乐探索器**](./audio/music_explorer) — 使用 Gemini 3 Flash 与任何音频文件或 YouTube 视频聊天。支持请求转录、情感分析、乐器识别以及带时间戳的分解。 - [**多语言音频翻译器**](./audio/multilingual_audio_translator) — 上传或录制任何语言的音频,通过 faster-whisper 进行转录,由 Gemini 翻译,并使用 Kokoro TTS 播放合成语音。 ### 🎬 多模态 结合视觉、视频和语言模型的项目。 - [**GLM-OCR Pro**](./multimodal/glm_ocr_pro) — 通过 Ollama 使用 GLM-OCR 进行结构化文档提取,在本地将图像和 PDF 转换为格式化的 Markdown。 - [**视频理解 Agent**](./multimodal/video_understanding_agent) — 使用 Gemini Flash 将 YouTube 视频总结为章节、核心要点和待办事项。 - [**多模态天气应用**](./multimodal/multimodal_weather_app) — 上传地图图像并获取实时天气。Mistral Small 4 通过视觉识别城市,然后通过原生工具调用获取实时天气状况。 - [**多模态 RAG**](./multimodal/multimodal_rag) — 将文本、URL、PDF、图像、音频和视频摄取到共享的 ChromaDB 索引中的 RAG 系统。Gemini Embedding 2 负责检索,Gemini 3 Flash 生成有依据的答案,并传递媒体源的实际文件 URI。 - [**图像问答**](./multimodal/image_question_answering) — 上传 PDF,选择页面,并由开启思考模式的 Gemma 4 回答视觉问题。PyMuPDF 将每页渲染为全分辨率图像,以便对图表、表格和图形进行有依据的推理。 - [**医疗文档解析器**](./multimodal/medical_document_parser) - 使用 Gemma 4 视觉功能从医疗 PDF 和图像中提取结构化临床档案。 ### 📚 RAG 应用 用于知识增强型 AI 应用的检索增强生成系统。 - [**结合 O3-Mini 与 DuckDuckGo 的 Agentic RAG**](./rag_apps/agentic_rag_with_o3_mini_and_duckduckgo) — 使用 O3-Mini 配合 DuckDuckGo 进行实时网络搜索的 RAG 系统。 - [**结合 Qwen 与 FireCrawl 的 Agentic RAG**](./rag_apps/agentic_rag_with_qwen_and_firecrawl) — 使用 Qwen 和 FireCrawl 进行网络抓取和检索的 RAG 系统。 - [**视觉 RAG**](./rag_apps/vision_rag) — 用于处理和查询视觉内容的多模态 RAG 系统。 - [**结合 ADE 的临床 RAG**](./rag_apps/clinical_rag_with_ade) — 使用 LandingAI ADE 进行视觉优先文档解析、Mistral Large 进行有依据推理的高精度临床 RAG。 - [**YouTube 转录 RAG**](./rag_apps/youtube_transcript_rag) — 使用 Whisper 转录、ChromaDB 检索和 Mistral Small 4 与任何 YouTube 视频聊天,提供带有时间戳链接的答案。 - [**GraphRAG 知识系统**](./rag_apps/graphrag_knowledge_system) — 使用 Mistral Small 4 和 NetworkX 从上传的文档构建本地知识图谱,支持实体级别和主题查询。 - [**混合 RAG 系统**](./rag_apps/hybrid_rag_system) — 并行地将文档索引到知识图谱和向量存储中。Mistral Small 4 利用来自两条检索路径的融合上下文来回答问题。 - [**HyDE RAG**](./rag_apps/hyde_rag) — 使用假设文档嵌入的 RAG 流水线。Gemini 3 Flash 生成假设性答案,Gemini Embedding 2 对其进行嵌入和平均,结果从 ChromaDB 中检索出更精确的文本块。 - [**摇滚音乐 RAG**](./rag_apps/rock_music_rag) — 基于 Wikipedia 构建的自定义摇滚音乐知识库。添加任何乐队,跨所有乐队提问,并获得由 BM25 检索和 Gemma 4 提供支持的带有来源的答案。 - [**带数据库路由的 RAG Agent**](./rag_apps/rag_agent_with_database_routing) — 使用 Agno 路由 Agent 在三个专门的 Qdrant 数据库(产品、支持、财务)之间路由查询。当未找到相关文档时,会回退到 LangGraph ReAct 网络搜索 Agent。 - [**推理 RAG**](./rag_apps/reasoning_rag) - 对任何网络提问,并通过 Gradio 获取带有实时、逐步推理轨迹的引用答案。 ## 📜 许可证 本仓库根据 **MIT License** 授权。详情请参阅 [LICENSE](./LICENSE) 文件。
标签:AI工程, AI智能体, AI风险缓解, DLL 劫持, Kubernetes, OCR, Petitpotam, RAG, 多模态模型, 大语言模型, 特权检测, 逆向工具