KIRAN-GITHUB123/OSNIT-VTM

GitHub: KIRAN-GITHUB123/OSNIT-VTM

OSINT-VTM是一个混合经典-深度学习框架，用于自动化视觉威胁情报。

Stars: 0 | Forks: 0

# OSINT-VTM：一种混合经典-深度学习框架，用于自动化视觉威胁情报 ## 执行摘要 OSINT-VTM（开源情报视觉威胁地图）是一个框架，旨在自动化发现和分析来自地理标记的街景图像中的安全和风险。对Mapillary等平台的传统手动分析在规模上不可行，而标准的深度学习（DL）模型计算成本高昂，且受限于封闭的词汇表。该框架通过采用新颖的混合检测管道来解决这些限制。它通过结合经典计算机视觉算法的快速候选生成与现代、开放词汇深度学习模型（YOLOv8x-Worldv2和CLIP）的高精度验证来实现协同效应。该系统不仅进行简单的目标检测，还将低级检测融合到高级、可操作的情报中，输出一个完整的情报产品，包括多页PDF威胁报告和交互式地图。 ## 系统架构与方法该管道通过多阶段过程将原始地理标记图像转换为结构化情报报告： ### 1. 混合检测管道核心检测引擎通过经典方法最大化召回率，然后通过深度学习模型最大化精度： * **第1次通过：单次深度学习缓存**：将预处理图像一次输入到动态配置的YOLOv8x-Worldv2模型中，以缓存开放词汇检测（例如，“安全摄像头”、“涂鸦”）。 * **第2次通过：经典候选生成**：一套计算成本低的经典检测器（Haar级联、HOG、Hough变换和基于轮廓的形状分析）快速识别所有潜在的感兴趣区域。 * **第3次通过：基于深度学习的验证（过滤器）**：高召回率的候选者与深度学习缓存进行验证。候选者根据与YOLO框的交并比（IoU）或CLIP（ViT-B/32）图像-文本嵌入的余弦相似度获得置信度提升。然后，动态过滤逻辑丢弃未经验证的假阳性。 ### 2. 高级上下文与时间分析该系统超越了简单的边界框，以生成情境洞察： * **时间场景变化检测**：图像根据地理坐标分组并按时间戳排序。Kanade-Lucas-Tomasi（KLT）跟踪器分析特征位移，以标记显著的场景变化（例如，篡改的基础设施）。 * **上下文风险融合（标志遮挡）**：系统分析不同发现类型之间的空间重叠。如果“涂鸦”检测与“停止标志”重叠严重，系统将智能融合这些检测并将事件重新分类为关键的“sign_obstructed”威胁。 ## 可操作的情报与报告检测被转换为可操作的、执行就绪的输出： * **时间衰减风险评分**：检测被分配一个基本风险评分（例如，遮挡标志的评分为9.5），该评分通过时间衰减函数进行调节，每年降低10%的旧图像风险权重，以优先考虑最近的威胁。 * **自动情报报告**：管道自动生成一份全面的、多页PDF报告，包括执行摘要、将威胁映射到建议行动的缓解矩阵以及包含视觉片段的详细发现表。 * **交互式地理可视化**：系统使用`folium`生成独立的交互式HTML地图，绘制每个发现的精确位置，并根据其风险严重程度进行颜色编码。 ## 核心技术栈 * **数据获取**：Mapillary Graph API * **经典计算机视觉**：OpenCV (cv2) * **深度学习与NLP**：PyTorch，Ultralytics（YOLOv8x-Worldv2），OpenCLIP（ViT-B/32），PyTesseract（OCR） * **报告与可视化**：ReportLab，Folium * **硬件加速**：原生支持Apple Silicon（MPS）和标准CPU/GPU扩展

标签：CLIP, ESC4, Haar级联, HOG, Hough变换, OSINT, PDF报告, YOLOv8x-Worldv2, 交互式地图, 凭据扫描, 图像识别, 地理标记图像, 威胁报告, 情报产品, 情报分析, 数据融合, 深度学习, 混合框架, 目标检测, 网络诊断, 自动化分析, 街景图像, 视觉威胁情报, 计算机视觉, 跨站脚本, 轮廓分析