LiquidDazee/Neelak-News
GitHub: LiquidDazee/Neelak-News
一个自动化 AI 驱动的网络安全新闻平台,解决如何高效聚合并通俗化威胁情报以实现高流量变现的问题。
Stars: 0 | Forks: 0
# 🛡️ CyberNews Aggregator (news.neelak.dev)
一个自动化、AI驱动的网络安全新闻平台,旨在整理、丰富并发布面向消费者的威胁情报。
**Live Site:** [news.neelak.dev](https://news.neelak.dev/)
## 📖 项目概述
该项目是一个端到端自动化发布管道。它聚合复杂的B2B网络安全警报,并利用AI将其重写为面向普通消费者的易读长文。主要商业目标是通过Google AdSense实现高流量变现。
## 🏗️ 系统架构与工作流程
该平台的核心基于可视化自动化和API集成,而非传统单体代码。
**核心技术栈:**
* **工作流自动化:** Make.com (Integromat)
* **内容生成:** Gemini
* **前端/CMS:** WordPress
* **图像处理:** 自动调整大小/压缩至WebP的流水线
### 🔄 双场景数据管道(Make.com)
为确保系统稳定性并防止API超时,自动化架构分为两个异步的Make.com场景,通过充当暂存队列的内部数据存储进行通信。
#### 场景1:摄取引擎(`CyberNew Fe`)
This workflow acts as the aggregator, running on a schedule to fetch and normalize raw data.
1. **多源轮询:** 同时从关键网络安全数据源拉取数据,包括CISA已知被利用漏洞数据库、The Hacker News、HelpNet Security和Google News。
2. **数据规范化:** 将JSON和RSS XML负载解析为标准化格式。
3. **暂存数据库:** 将原始新闻条目推送到Make.com数据存储(`News_Queue_DB`),并标记为“待处理”状态,防止重复处理。
#### 场景2:AI处理与发布引擎(`CyberNew Writer`)
This workflow acts as the editorial team, pulling from the staging queue to evaluate, write, and publish the content.
1. **队列消费:** 搜索标记为“待处理”的`News_Queue_DB`记录。
2. **AI分类(“编辑”):** 将原始摘要传递给Gemini Pro LLM,并使用严格的系统提示对其与小型企业相关的相关性进行1-10分评分。
* **路由逻辑:** 如果分数低于6,记录将立即更新为“已拒绝”,流程停止,节省令牌成本并保持站点质量。
3. **内容生成(“作者”):** 如果分数为6或更高,第二个Gemini Pro模块将原始数据转换为符合SEO规范的8年级阅读水平文章,包含HTML标签、标题和摘要。
4. **资产获取:** 动态调用Pexels API获取与生成标题相关的高分辨率、横向股票图片。
5. **CMS发布:** 将媒体文件上传至自托管WordPress实例,生成包含AI生成的HTML和原始来源链接的草稿文章,并将数据存储状态更新为“已发布”。
## 🖥️ 托管与基础设施(自托管)
该项目完全自托管,绕过传统的托管云提供商,以保持对数据和部署环境的完全控制。
* **容器化:** Web应用程序及其依赖项使用**Docker**部署,确保隔离且可重现的环境。
* **安全交付:** 流量通过**Cloudflare Tunnels**安全路由至内部网络,安全地将Web服务暴露给公共互联网,无需打开入站防火墙端口。
* **网络冗余:** 底层网络基础设施利用负载均衡和故障转移配置,确保应用程序的高可用性和正常运行时间。
## 📈 SEO与拟议的货币化策略
* **目标受众:** 寻求可操作安全建议的消费人群和中小企业(例如“如何保护我的PC免受勒索软件侵害”)。
* **货币化(进行中):** Google AdSense。内容结构包含高字数和特定标题(`发生了什么?`、`如何修复?`、`常见问题`),以实现文章内广告的最佳投放而不损害用户体验。
* **流量策略:** 针对Google Discover订阅源进行优化,使用高对比度图像和激发好奇心的标题。
## 🛠️ 运维与错误处理
为确保业务连续性,自动化管道包含内置冗余机制:
* **图像回退:** 如果源图像损坏或返回404,工作流将路由到默认品牌占位符,防止发布失败。
* **数据清洗:** 所有传入文本在AI处理前都会清除损坏的HTML和恶意脚本。
This workflow acts as the aggregator, running on a schedule to fetch and normalize raw data.
1. **多源轮询:** 同时从关键网络安全数据源拉取数据,包括CISA已知被利用漏洞数据库、The Hacker News、HelpNet Security和Google News。
2. **数据规范化:** 将JSON和RSS XML负载解析为标准化格式。
3. **暂存数据库:** 将原始新闻条目推送到Make.com数据存储(`News_Queue_DB`),并标记为“待处理”状态,防止重复处理。
#### 场景2:AI处理与发布引擎(`CyberNew Writer`)
This workflow acts as the editorial team, pulling from the staging queue to evaluate, write, and publish the content.
1. **队列消费:** 搜索标记为“待处理”的`News_Queue_DB`记录。
2. **AI分类(“编辑”):** 将原始摘要传递给Gemini Pro LLM,并使用严格的系统提示对其与小型企业相关的相关性进行1-10分评分。
* **路由逻辑:** 如果分数低于6,记录将立即更新为“已拒绝”,流程停止,节省令牌成本并保持站点质量。
3. **内容生成(“作者”):** 如果分数为6或更高,第二个Gemini Pro模块将原始数据转换为符合SEO规范的8年级阅读水平文章,包含HTML标签、标题和摘要。
4. **资产获取:** 动态调用Pexels API获取与生成标题相关的高分辨率、横向股票图片。
5. **CMS发布:** 将媒体文件上传至自托管WordPress实例,生成包含AI生成的HTML和原始来源链接的草稿文章,并将数据存储状态更新为“已发布”。
## 🖥️ 托管与基础设施(自托管)
该项目完全自托管,绕过传统的托管云提供商,以保持对数据和部署环境的完全控制。
* **容器化:** Web应用程序及其依赖项使用**Docker**部署,确保隔离且可重现的环境。
* **安全交付:** 流量通过**Cloudflare Tunnels**安全路由至内部网络,安全地将Web服务暴露给公共互联网,无需打开入站防火墙端口。
* **网络冗余:** 底层网络基础设施利用负载均衡和故障转移配置,确保应用程序的高可用性和正常运行时间。
## 📈 SEO与拟议的货币化策略
* **目标受众:** 寻求可操作安全建议的消费人群和中小企业(例如“如何保护我的PC免受勒索软件侵害”)。
* **货币化(进行中):** Google AdSense。内容结构包含高字数和特定标题(`发生了什么?`、`如何修复?`、`常见问题`),以实现文章内广告的最佳投放而不损害用户体验。
* **流量策略:** 针对Google Discover订阅源进行优化,使用高对比度图像和激发好奇心的标题。
## 🛠️ 运维与错误处理
为确保业务连续性,自动化管道包含内置冗余机制:
* **图像回退:** 如果源图像损坏或返回404,工作流将路由到默认品牌占位符,防止发布失败。
* **数据清洗:** 所有传入文本在AI处理前都会清除损坏的HTML和恶意脚本。标签:AI, BeEF, Gemini, Google AdSense, JSON, Make.com, RSS, WebP, WordPress, 内容生成, 内容编排, 双场景流水线, 威胁情报, 开发者工具, 数据管道, 文件完整性监控, 新闻聚合, 流量获取, 消费者端威胁情报, 爬虫, 网络安全, 网络调试, 自动化, 自动化代码审查, 视觉自动化, 请求拦截, 软件工程, 隐私保护