Deep-Learning-101/Compliance-Agent

GitHub: Deep-Learning-101/Compliance-Agent

基於 Agentic AI 的資安合規與威脅情資戰情中心，實現法規自動爬取解析、合規差異分析與主動威脅預警。

Stars: 1 | Forks: 0

# Cyber Compliance & Threat Intelligence Center (Agentic AI 驅動的資安合規與威脅情資戰情中心) ![architectureX](https://raw.githubusercontent.com/Deep-Learning-101/Compliance-Agent/main/Xarch.png) 這是一個具備 **Agentic Workflow (代理人工作流)** 特性的全方位資安監控系統。本系統整合了 **Google Gemini (LLM)**、**無頭瀏覽器** 與 **自動化排程**，打造出獨特的「雙核心」引擎： 1. **Compliance Engine**: 像法規顧問一樣，自動爬找、解讀、比對全球資安法規。 2. **Threat Intelligence Engine**: 像資安分析師一樣，全天候監控駭客論壇與新聞，自動分析威脅趨勢。 ## 🏗️ 系統架構 (System Architecture) 本專案採用模組化微服務架構設計，核心由 Google Gemini 模型驅動： * **Frontend**: Streamlit (提供直觀的互動介面 & 監控儀表板) * **Core Agents**: * **Crawler Agent**: 負責法規與政策的智慧搜尋。 * **News Collector**: 負責從 RSS、API 與網站蒐集最新資安威脅 (Ransomware, Zero-day)。 * **Threat Analyzer**: 專門分析新聞內容，判斷威脅等級 (High/Medium/Low) 並擷取 IOCs。 * **Auditor Agent**: 模擬 ISO 27001 主導稽核員，執行差異分析。 * **Scheduler Bot**: 統一管理「法規巡邏」與「新聞監控」的背景排程器。 * **Data Layer**: * **Regulations DB**: 儲存法規條文與版本歷史。 * **CyberNews DB**: 儲存威脅情資與分析報告。 ## 🚀 主要功能與技術亮點 ### 1. 法規爬查 (Regulation Crawler) * **Agentic Search Strategy**: * 系統首先分析使用者指令（如「找日本資安法規」），自動推斷目標領域、國家、語言及權威機構。 * **多語言自動轉換**：自動將搜尋關鍵字轉換為當地官方語言（如日文、越南文），確保搜尋到最原始的官方文件。 * **Hybrid Fetching Engine**: * **API 模式**: 整合 Google Custom Search API 與 DuckDuckGo。 * **Browser 模式**: 內建 **Playwright** 無頭瀏覽器，模擬真實使用者行為 (User-Agent, Viewport)，有效繞過政府網站或 Google 的反爬蟲驗證。 ### 2. 法規解析 (Regulation Parser) * **結構化轉換**: 將 PDF/HTML 文件強制轉換為標準化的 JSON 格式，包含條號、原文、分類等欄位。 * **AI 摘要與翻譯**: 針對每一條文自動生成： * **Summary**: 專業的法規摘要。 * **Plain Language**: 適合非技術人員閱讀的白話文解釋（繁體中文）。 ### 3. 差異分析 (Gap Analysis) * **Context-Aware Analysis**: 將企業內部規範與法規條文同時納入 LLM 上下文，精準識別落差。 * **Actionable Insights**: 自動產出合規分數、風險等級（High/Medium/Low）及具體的改善建議。 ### 4. 主動監控 (Active Monitoring) * **全自動變更追蹤**: 內建背景排程機器人，每日定時巡邏已納管的法規網頁。 * **數位指紋技術 (Digital Fingerprinting)**: 計算網頁內容的 Hash 值，精準偵測細微變更（如修訂版發布）。 * **主動預警**: 一旦偵測到變更，立即發送 Email 通知，並於「監控儀表板」顯示變更歷史日誌。 ### 5. 稽核模擬與報告 (Audit & Reporting) * **Audit Simulator**: 模擬不同風格（嚴格、引導式、技術專家）的稽核員進行攻防演練。 * **Report Generator**: 支援一鍵生成 **PDF** 與 **PowerPoint** 格式的合規評估報告。 ### 6. 威脅情資中心 (Threat Intelligence Center) * **全自動情資蒐集**: 24/7 監控主流資安新聞源 (The Hacker News, BleepingComputer, CISA)。 * **AI 威脅分析**: LLM 自動閱讀新聞，過濾雜訊，僅保留具備實質威脅的情報 (如新漏洞 CVE、勒索軟體活動)。 * **關聯分析**: 未來可將「新發現的威脅 (News)」與「內部合規缺口 (Gaps)」進行交叉比對，實現風險預警。 ### 7. 進階合規工具箱 (Advanced Compliance Toolkit) [NEW] 這是專為資安稽核員與合規官設計的生產力工具： * **法規底稿自動生成 (Audit Checklist Generator)**: * **技術**: 使用 Regex 智慧解析 PDF 結構，結合 **Gemini 2.5 Pro** 的邏輯推理。 * **輸出**: 自動產出包含「稽核問項」、「查核方式」、「應徵提證據」的 Excel 底稿，大幅縮短人工準備時間。 * **法規與 SOP 差異分析 (Vector-based Gap Analysis)**: * **技術**: 採用 **RAG (Retrieval-Augmented Generation)** 架構。 * **流程**: 將內部 SOP 進行 **Embedding (向量化)**，針對每一條外部法規，系統會自動在 SOP 中「搜索」出最相關的條款進行比對。 * **優勢**: 即使法規與 SOP 用詞不同（例如 "存取控制" vs "帳號管理"），透過語意向量也能精準對應，解決傳統關鍵字比對的盲點。 ![Infographic](https://raw.githubusercontent.com/Deep-Learning-101/Compliance-Agent/main/InfographicX.png) ### 🛡️ Agentic AI 系統架構：核心能力象限 | **1. 推理與規劃 (Reasoning) 🧠** | **2. 工具使用 (Tool Use) 🛠️** | | :--- | :--- | | **• Thinking before Acting**
思考勝於直覺，透過 CoT (思維鏈) 分析意圖。

**• 實例**
用戶輸入「找日本資安法規」→ AI 自動推論：
1. 鎖定 **FSA (金融廳)** 機構
2. 轉譯 **日文關鍵字**
3. 制定多階段搜尋策略 | **• Extending Boundaries**
突破模型邊界，主動呼叫工具解決聯網限制。

**• 實例**

1. **Hybrid Crawler**：自動切換 API / 瀏覽器模式。
2. **Parser Agent**：自動將非結構化 PDF 轉為 JSON。
| | **3. 環境感知 (Perception) 👁️** | **4. 行動與自主性 (Autonomy) ⚡** | | **• Sensing the World**
數位感官延伸，具備感知外部環境變化的能力。

**• 實例**
1. **Digital Fingerprinting**：計算網頁 Hash 偵測變更。
2. **Context-Aware**：同時解讀內規與外規的語意落差。 | **• Proactive Execution**
從被動到主動，具備自主時間表，無需持續指令。

**• 實例**
1. **Scheduler Bot**：每日 09:00 自動巡邏。
2. **Proactive Alert**：發現變更 → 主動發信預警。 | ### 🛡️ Agentic AI 系統能力驗證與層級對應 (System Capabilities & Levels)本系統經由實作驗證，已超越傳統對話機器人 (L1) 與單純工具呼叫 (L2)，具備 **Level 3 General Agent (通用代理人)** 的核心特徵，並在特定模組展現 **Level 4 Autonomous (自主代理人)** 的雛形。本系統採用 **「合規 (Compliance)」** 與 **「情資 (Intelligence)」** 雙核心引擎設計，以下為詳細對應分析： ### 1. 推理與規劃 (Reasoning & Planning)> **對應層級：Level 3 (General Agent)** * **理論定義**：AI 不再是「輸入 A 輸出 B」的反射動作，而是能理解模糊意圖，並透過 Chain-of-Thought (CoT) 在執行前先制定計畫。 #### 🔹 系統功能： * **[合規] 法規爬查 (Regulation Crawler)**：內建 Crawler Agent 具備「思考」能力。系統不會直接拿使用者的話去搜尋，而是先進行意圖分析，推斷目標領域、國家、語言及權威機構。 * **[情資] 威脅分析 (Threat Analyzer)**：AI 不僅是閱讀新聞，還會進行 **「相關性推理」**。它能從海量資訊中過濾雜訊，自動判斷該新聞是否為「高風險威脅」（如 0-day 漏洞、勒索軟體），並決定是否需要發出警報。 #### 🔹 使用流程驗證： * **User Action**：輸入模糊指令 `幫我找新加坡的個人資料保護法`。 * **Agent Reasoning**：AI 內部推理：「新加坡(地區) + 個資法(領域) = 目標是 **PDPA** 法案，權威機構是 **PDPC**，網域應鎖定 **pdpc.gov.sg**」。 * **Result**：系統自動產生精準的搜尋策略，而非盲目搜尋關鍵字。 ### 2. 工具使用 (Tool Use)> **對應層級：Level 2 (Tool User)** * **理論定義**：AI 知道自己的侷限（例如無法上網、無法讀 PDF），因此會主動呼叫外部工具（API, Browser, Parser）來完成任務。 #### 🔹 系統功能： * **[合規] Hybrid Fetching Engine**：當 AI 判斷目標是靜態網頁時，呼叫 **Google API**；當判斷有反爬蟲機制時，自主切換使用 **Playwright (Browser 模式)** 模擬真實瀏覽器。 * **[情資] News Collector**：AI 主動操作 RSS Feed Parser 與 News API 工具，並呼叫 HTML 清洗工具來提取新聞正文。 * **[報告] Report Generator**：AI 呼叫 `WeasyPrint` 或 `python-pptx` 函式庫來產出實體報告。 #### 🔹 使用流程驗證： * **Agent Action**：使用者點擊「解析」後，Agent **操作瀏覽器** 下載 PDF，接著 **操作解析器** 提取條文，最後 **操作翻譯引擎** 生成中文摘要。這整個過程是 AI 在指揮工具。 ### 3. 感知 (Perception)> **對應層級：Level 3 (General Agent)** * **理論定義**：AI 的感官延伸到了數位環境。它不僅能讀文字，還能「看見」網頁結構、「讀取」檔案內容，甚至「感知」環境的細微變遷。 #### 🔹 系統功能： * **[合規] 主動監控 (Active Monitoring)**：系統透過計算 **數位指紋 (Hash)**，具備了感知網頁內容變更的能力。它不只看網址，而是看「內容指紋」來偵測修訂。 * **[情資] 威脅感知 (Threat Landscape)**：AI 透過持續閱讀新聞，「感知」外部威脅情勢的變化（例如某個 CVE 漏洞被利用的頻率突然升高）。 * **[分析] Context-Aware Analysis**：在差異分析中，AI 同時「閱讀」並感知兩份文件（外部法規 vs 內部政策）的語意脈絡。 #### 🔹 使用流程驗證： * **Agent Action**：當新加坡個資法修訂時，監控模組 **感知 (Detect)** 到了網頁 Hash 的變化，確認這不是誤報，而是實質內容的變動。 ### 4. 行動與自主性 (Action & Autonomy)> **對應層級：邁向 Level 4 (Autonomous Agent)** * **理論定義**：AI 從「被動等待指令」進化為「主動執行任務」。它擁有自己的時間表，能長期運行並主動發起互動。 ##### 🔹 系統功能： * **[核心] Scheduler Bot**：全系統共用的排程大腦，不需要人類每天下指令，而是每天定時自動醒來巡邏法規與新聞。 * **[情資] 主動預警 (Proactive Alerting)**：當 AI 發現「高風險」新聞時，會**自主決定**立即發送通知給管理員，而不需要等待使用者登入查看。 * **[模擬] Audit Simulator**：稽核代理人能主動發起攻防演練，模擬稽核員的行為模式來挑戰企業政策。 #### 🔹 使用流程驗證： * **User Action**：開啟系統並設定一次監控。 * **Agent Autonomy**：從此刻起，Agent 接手了守護工作 (24/7)。 * **Outcome**：未來某天，使用者還沒上班，Agent 已經發現變更或重大漏洞新聞，並 **主動發送 (Proactive Alert)** Email 通知，並在儀表板更新日誌。 ### 🏆 總結： | 系統面向 | 能力描述 | Agent Level | | ---------- | ------------------------------------------ | ------------ | | 工具使用 | Crawler / Parser / News Collector | L2 | | 推理與分析 | Threat Correlation / Search Strategy | **L3** | | 環境感知 | Digital Fingerprinting / Landscape Mapping | **L2+** | | 自動化執行 | Scheduler / Rule-based Alerts | **L2.5** | | 自主行動（尚未實現） | Task Generation / Strategy Selection | *Pre-L4（未達）* | ## 📖 使用流程範例 (Usage Workflow) 1. **自主搜尋**: 在「法規管理」輸入 `幫我找新加坡的個人資料保護法`。 * *AI 將自動判斷需搜尋 "PDPA" 並鎖定 "pdpc.gov.sg" 網域。* 2. **爬取解析**: 選擇搜尋結果，點擊「解析」。 * *系統自動下載 PDF，提取條文並翻譯為中文。* 3. **加入監控**: 在解析結果頁面，點擊 **「🔔 加入監控 (Monitor)」** 按鈕。 * *系統將此法規納入排程，每日自動檢查官網是否有更新版本。* 4. **威脅情資**: 切換至「威脅情資中心」，查看 AI 自動彙整的今日高風險漏洞。 * *AI 已自動過濾掉無關新聞，並標註 CVE-2025-xxxx 為「高風險」。* 5. **差異分析**: 上傳貴公司的「資訊安全政策」文件。 * *系統比對 PDPA 與貴公司政策，列出 "Cookie 同意機制" 為高風險落差。* 6. **產出報告**: 下載 PDF 版本的「合規評估報告」或「威脅情資週報」提交給管理層。 7. **接收預警**: (未來情境) 當法規修訂或爆發重大勒索軟體疫情時，系統偵測到異常，**主動發送通知** 並在儀表板顯示警告。 ## 🛠️ 安裝與啟動 ### 1. 環境準備 * Python 3.8+ * Windows / Linux / WSL ### 2. 安裝依賴 pip install -r requirements.txt *(系統將自動安裝 `playwright`, `apscheduler`, `google-generativeai` 等核心套件)* ### 3\. 初始化瀏覽器核心首次使用需安裝 Playwright 瀏覽器核心： playwright install chromium ### 4\. 設定環境變數請複製 `.env.example` 為 `.env` 並填入以下資訊： # [必要] Google Gemini API Key GOOGLE_API_KEY=your_gemini_api_key # [推薦] Google Custom Search API (大幅提升搜尋精準度) GOOGLE_SEARCH_API_KEY=your_google_search_api_key GOOGLE_SEARCH_ENGINE_ID=your_search_engine_id # [選填] Email 通知設定 (用於主動監控) SMTP_SERVER=smtp.gmail.com SMTP_PORT=587 SMTP_USER=your_email@gmail.com SMTP_PASSWORD=your_app_password RECIPIENT_EMAIL=alert_receiver@example.com ### 5\. 啟動系統 python -m streamlit run app/main.py python -m streamlit run app/main.py --server.port 7000 --server.address 0.0.0.0 ## 💡 常見問題與設計理念 (Q\&A) ### 一、關於搜尋完整性 * **Q: 無法規清單時，如何確保完整性？** * **A**: 採用 **混合式搜尋策略 (Hybrid Search Strategy)**。AI 負責廣泛的探索性搜尋以發現新法規，並提供 **Human-in-the-loop (人工補登)** 介面讓專家補充特定來源，確保涵蓋無死角。 * **Q: 新法規發布有 Google 索引延遲怎麼辦？** * **A**: 系統採取 **雙軌監控機制**。針對廣泛資訊使用 Google API；針對關鍵機關（如金管會）則利用 **Playwright** 瀏覽器模擬技術直接進行「定點巡邏」，不依賴搜尋引擎索引。 ### 二、關於結果驗證 * **Q: 如何驗證搜尋結果的正確性？** * **A**: 系統內建 **來源白名單機制** (優先採信 .gov/.org) 與 **信譽評分**。AI 初步篩選後，由人工進行最終覆核 (Review)，並完整記錄操作日誌 (Audit Trail)。 * **Q: 為何不直接買資料庫，要用網路搜尋？** * **A**: 本系統定位為 **高性價比的替代方案**。利用 GenAI 將公開網路上的非結構化資訊轉化為結構化數據，為尚未訂閱昂貴法規資料庫的企業提供自動化且具彈性的解決方案。 ### 三、關於實務運作 * **Q: 各國法規更新頻率不一，如何維護？** * **A**: 透過 **主動變更監控 (Active Monitoring)** 模組。系統利用數位指紋技術定期比對目標網頁，一旦偵測到微小變動即透過 Email/IM 推播通知，從「被動查詢」轉型為「主動預警」。 * **Q: 多語言法規如何處理？** * **A**: 搜尋引擎具備 **雙語交叉搜尋** 能力，自動生成「當地官方語 + 英文」關鍵字，確保取得最權威原始檔，並利用 LLM 翻譯生成繁體中文摘要。 ### 四、關於進階分析技術 * **Q: 系統如何處理長篇法規的比對？** * **A**: 我們採用 **分塊向量化 (Chunking & Embedding)** 技術。系統不會一次把整本 SOP 丟給 AI，而是先將 SOP 拆解並向量化。當分析某一條法規時，只會調閱出 SOP 中最相關的片段給 LLM 進行比對，確保精準度並突破 Token 限制。 * **Q: 英文法規可以生成中文底稿嗎？** * **A**: 可以。系統內建 **Translate-First Strategy**，遇到英文法規（如 GDPR, NIST）時，會先透過 AI 進行專業術語的繁體中文翻譯，再進行底稿生成，確保產出結果符合台灣使用者需求。 ## 📄 License This project is licensed under the MIT License.

标签：Agentic AI, Compliance Automation, Cyber Threat Intelligence, GRC, HTTP工具, IOCs, ISO 27001, Kubernetes, LLM, Playwright, Ransomware, Streamlit, Unmanaged PE, Zero-day, 代理人工作流, 多語言搜尋, 大語言模型, 威脅情資, 微服務架構, 戰情中心, 数据泄露, 法規爬查, 無頭瀏覽器, 特征检测, 自動化排程, 自動化稽核, 访问控制, 資安合規, 資安監控, 逆向工具, 風險管理