KIRAN-GITHUB123/OSNIT-VTM
GitHub: KIRAN-GITHUB123/OSNIT-VTM
OSINT-VTM是一个混合经典-深度学习框架,用于自动化视觉威胁情报。
Stars: 0 | Forks: 0
# OSINT-VTM:一种混合经典-深度学习框架,用于自动化视觉威胁情报
## 执行摘要
OSINT-VTM(开源情报视觉威胁地图)是一个框架,旨在自动化发现和分析来自地理标记的街景图像中的安全和风险。
对Mapillary等平台的传统手动分析在规模上不可行,而标准的深度学习(DL)模型计算成本高昂,且受限于封闭的词汇表。该框架通过采用新颖的混合检测管道来解决这些限制。它通过结合经典计算机视觉算法的快速候选生成与现代、开放词汇深度学习模型(YOLOv8x-Worldv2和CLIP)的高精度验证来实现协同效应。
该系统不仅进行简单的目标检测,还将低级检测融合到高级、可操作的情报中,输出一个完整的情报产品,包括多页PDF威胁报告和交互式地图。
## 系统架构与方法
该管道通过多阶段过程将原始地理标记图像转换为结构化情报报告:
### 1. 混合检测管道
核心检测引擎通过经典方法最大化召回率,然后通过深度学习模型最大化精度:
* **第1次通过:单次深度学习缓存**:将预处理图像一次输入到动态配置的YOLOv8x-Worldv2模型中,以缓存开放词汇检测(例如,“安全摄像头”、“涂鸦”)。
* **第2次通过:经典候选生成**:一套计算成本低的经典检测器(Haar级联、HOG、Hough变换和基于轮廓的形状分析)快速识别所有潜在的感兴趣区域。
* **第3次通过:基于深度学习的验证(过滤器)**:高召回率的候选者与深度学习缓存进行验证。候选者根据与YOLO框的交并比(IoU)或CLIP(ViT-B/32)图像-文本嵌入的余弦相似度获得置信度提升。然后,动态过滤逻辑丢弃未经验证的假阳性。
### 2. 高级上下文与时间分析
该系统超越了简单的边界框,以生成情境洞察:
* **时间场景变化检测**:图像根据地理坐标分组并按时间戳排序。Kanade-Lucas-Tomasi(KLT)跟踪器分析特征位移,以标记显著的场景变化(例如,篡改的基础设施)。
* **上下文风险融合(标志遮挡)**:系统分析不同发现类型之间的空间重叠。如果“涂鸦”检测与“停止标志”重叠严重,系统将智能融合这些检测并将事件重新分类为关键的“sign_obstructed”威胁。
## 可操作的情报与报告
检测被转换为可操作的、执行就绪的输出:
* **时间衰减风险评分**:检测被分配一个基本风险评分(例如,遮挡标志的评分为9.5),该评分通过时间衰减函数进行调节,每年降低10%的旧图像风险权重,以优先考虑最近的威胁。
* **自动情报报告**:管道自动生成一份全面的、多页PDF报告,包括执行摘要、将威胁映射到建议行动的缓解矩阵以及包含视觉片段的详细发现表。
* **交互式地理可视化**:系统使用`folium`生成独立的交互式HTML地图,绘制每个发现的精确位置,并根据其风险严重程度进行颜色编码。
## 核心技术栈
* **数据获取**:Mapillary Graph API
* **经典计算机视觉**:OpenCV (cv2)
* **深度学习与NLP**:PyTorch,Ultralytics(YOLOv8x-Worldv2),OpenCLIP(ViT-B/32),PyTesseract(OCR)
* **报告与可视化**:ReportLab,Folium
* **硬件加速**:原生支持Apple Silicon(MPS)和标准CPU/GPU扩展
标签:CLIP, ESC4, Haar级联, HOG, Hough变换, OSINT, PDF报告, YOLOv8x-Worldv2, 交互式地图, 凭据扫描, 图像识别, 地理标记图像, 威胁报告, 情报产品, 情报分析, 数据融合, 深度学习, 混合框架, 目标检测, 网络诊断, 自动化分析, 街景图像, 视觉威胁情报, 计算机视觉, 跨站脚本, 轮廓分析