lucasfreitas16/osint-neuro-symbolic-engine
GitHub: lucasfreitas16/osint-neuro-symbolic-engine
结合 RAG、本地 LLM 与 Prolog 逻辑推理的神经符号引擎,从非结构化报告中自动提取金融威胁情报并计算洗钱路径概率。
Stars: 0 | Forks: 0
# 🧠 OSINT 神经符号引擎
## 📌 概述
本项目是一款基于**神经符号**(Neuro-Symbolic)架构的自主 *Threat Intelligence*(威胁情报)与 OSINT(Open-Source Intelligence,开源情报)工具。该系统将 Large Language Models (LLMs) 在自然语言处理方面的统计能力与一阶逻辑(Prolog)严谨的数学和确定性相结合。
该引擎的主要目的是读取非结构化报告(如拦截通信或调查文档),自主提取可疑的行为者和金融交易,并从拓扑结构上计算洗钱路径的概率。
## ⚙️ 系统架构
该项目的 pipeline 构建于 4 个不同的阶段:
1. **RAG (Retrieval-Augmented Generation):** 使用 LangChain 和 FAISS 对纯文本报告进行分片、向量化处理以及检索相关上下文。
2. **本地 LLM 提取:** 使用在本地运行的 `microsoft/phi-2` 模型处理文本,并将自然语言转换为逻辑原子。双语 prompt 经过了专门设计,采用了限制技术以防止幻觉。
3. **防御性过滤器与 Regex:** 这是一个由 Python 编写的清洗层,利用复杂的正则表达式(Regex)在注入前对 AI 的输出进行净化处理。
4. **推理引擎(Prolog):** 通过 `PySWIP` 库,将事实注入到 Prolog 的 RAM 内存中。引擎利用回溯和递归规则,计算端到端金融交易链条的总数学概率。
5. **图可视化:** 使用 `NetworkX` 和 `Pyvis` 在交互式 HTML 中渲染连接和财务流向。
## 🛠️ 涉及的技能与技术
* **人工智能与 NLP:** RAG pipeline 的实现、本地开源 LLM 推理以及限制性 prompt 工程。
* **一阶逻辑:** 在 SWI-Prolog 中开发知识库,并使用递归搜索算法进行概率的矩阵式计算。
* **防御性编程(Python):** 严格的字符串处理,以及原生语言(通过 Prolog 后端的 `C/C++`)与 Python 之间的集成。
* **网络科学(图):** 拓扑数据建模以及基于权重和边的交互式可视化。
标签:DLL 劫持, ESC4, OSINT, Prolog, UML, 后端开发, 大语言模型, 威胁情报, 开发者工具, 特权检测, 神经符号AI, 逆向工具, 金融风控