IvanDobrovolsky/torchsight

GitHub: IvanDobrovolsky/torchsight

基于本地 LLM 的离线安全扫描器，可智能检测文档中的敏感数据和恶意内容，确保数据不离开本地设备。

Stars: 1 | Forks: 0

TorchSight

由本地 LLM 驱动的本地安全扫描器。
扫描文件中的敏感数据、凭证和威胁。数据绝不离开您的设备。

## 安装 ``` git clone https://github.com/IvanDobrovolsky/torchsight.git cd torchsight && ./install.sh ```

macOS / Windows / 手动安装

**macOS** ``` brew install ollama tesseract rust ollama pull torchsight/beam cargo build --release && cp target/release/torchsight /usr/local/bin/ ``` **Windows** — 使用 [WSL2](https://learn.microsoft.com/en-us/windows/wsl/install) 并遵循 Linux 的安装说明。 **手动** — 安装 [Rust](https://rustup.rs)、[Ollama](https://ollama.com)，以及可选的 [Tesseract](https://github.com/tesseract-ocr/tesseract)。然后运行 `ollama pull torchsight/beam` 和 `cargo build --release`。

## 使用 ``` torchsight /path/to/scan # scan and report torchsight -i /path/to/scan # scan + interactive Q&A (loads extra model ~4.9GB) torchsight # start REPL ``` ## 检测内容 PII、凭证、财务记录、医疗数据、机密/军事文档、恶意 payload（注入、漏洞利用、提示词注入、反向 shell）等 —— 涵盖文本、图像和 PDF。 ## 工作原理每个文件都经由 [torchsight/beam](https://huggingface.co/torchsight/beam) 处理，这是一个基于 18 个公共数据集的 78K 平衡安全样本微调的 Llama 3.1 8B 模型。无正则表达式，无关键词匹配 —— 纯 LLM 分类。图像首先进行 OCR + 视觉分析。所有操作均通过 [Ollama](https://ollama.com) 在本地进行。 ## 训练数据来自 18 个已验证来源的 78,358 个样本。均为公有领域、Apache 2.0、MIT、CC-BY 4.0 或免版税许可。零灰色地带许可。请参阅 [training/](training/) 获取完整的 pipeline 和数据集详情。 ## 许可证 [Apache 2.0](LICENSE)

标签：AI风险缓解, Apex, CISA项目, DAST, DLP, DNS 反向解析, GraphQL安全矩阵, Llama 3.1, LLM, LLM评估, OCR, Ollama, On-premise, PII识别, Prompt注入, Rust, Tesseract, Unmanaged PE, USENIX Security 2025, 医疗数据, 反向Shell, 可视化界面, 图片安全, 安全扫描器, 开源安全工具, 恶意软件分析, 敏感数据检测, 文件分析, 文档分类器, 本地大模型, 机器学习, 注入攻击检测, 混合内容分析, 知识库安全, 离线安全, 网络安全, 网络安全, 网络流量审计, 逆向工程平台, 配置审计, 金融数据, 隐私保护, 隐私保护