Not-A-Phony/sentinel
GitHub: Not-A-Phony/sentinel
Sentinel是一个基于AI的实时威胁情报系统,用于自动化防御社区中的毒性、欺诈和协同攻击。
Stars: 0 | Forks: 0
Sentinel
企业级AI威胁情报与自动化社区防御系统。
[](#)
[](#)
[](#)
[](#)
## 概要
**Sentinel** 是一款新一代的智能审核平台,旨在保护数字社区免受协同攻击、病毒式崩溃和复杂金融欺诈的侵害。它超越了传统的反应式关键词过滤,采用多层威胁评估管道,将语义AI分析与确定性的用户信任信号相结合。
通过主动运营,Sentinel 能在人工审核团队不堪重负 *之前* 检测到滥用行为、垃圾信息网络和社交工程攻击。
## 核心能力
| 能力 | 描述 |
| :--- | :--- |
| **AI毒性分析** | 利用 Google Gemini 进行深度语义分析,识别传统正则表达式常常遗漏的讽刺、暗语和升级敌意。 |
| **欺诈缓解** | 专门设计的启发式方法,用于识别加密货币地毯骗局、代发货垃圾信息、联盟营销滥用、虚假赠品以及外部平台引流(例如 Telegram/Discord)。 |
| **动态信任评分** | 动态评估并惩罚低Karma值和新创建的账户,有效瓦解协同的机器人网络和规避策略。 |
| **链接信誉引擎** | 提取 URL 并根据硬编码黑名单和 Google Safe Browsing API 进行交叉验证,拦截钓鱼尝试。 |
| **升级管理** | 将威胁映射到四种不同的操作状态(`安全`、`监视`、`升级`、`严重`),优化审核员注意力的分配。 |
| **透明审核** | 为每次升级生成人类可读的解释,确保审核操作完全透明且可辩护。 |
| **异步处理** | 基于队列的完全异步 Devvit 架构,保证在高流量事件期间对平台用户零延迟影响。 |
## 挑战
恶意行为者持续演变:
- 使用礼貌、无毒性的语言推销复杂的加密货币骗局。
- 操纵紧迫感(“现在私信我”、“限时优惠!”)。
- 频繁更换零Karma值的一次性账户以规避封禁。
反应式的关键词过滤已不足以应对现代社交工程攻击。
## Sentinel 的优势
Sentinel 引入了**分层智能**范式。它不仅仅查询AI以判断毒性,而是同时评估用户的*行为*、其链接的*信誉*以及其消息的*语义意图*。通过将审核视为网络安全威胁检测挑战,Sentinel 保证了高保真度、可操作的情报。
## 系统架构
```
[Reddit Infrastructure]
│
▼
[Sentinel Intake] ────────── (Velocity & Event Triggers)
│
▼
[Gemini Analysis] ────────── (Semantic Toxicity & Fraud Intent)
│
▼
[Trust Signals] ─────────── (Account Age & Karma Multipliers)
│
▼
[Link Reputation] ────────── (Safe Browsing & Domain Checks)
│
▼
[Threat Aggregation] ──────── (Weighted Risk Algorithm)
│
▼
[Escalation] ──────────── (SAFE, WATCH, ELEVATING, CRITICAL)
│
▼
[Moderator Dashboard] ──────── (Live Devvit Custom Post UI)
```
## 威胁评估管道
Sentinel 将多维度信息综合为一个统一的风险评分(0-100):
1. **语义分析:** 评估文本中是否存在敌意意图或操纵性欺诈言论。
2. **用户信任分析:** 评估作者的账户年龄、评论Karma值和链接Karma值。低信任账户会触发指数级的风险乘数。
3. **链接检查:** 提取嵌入的 URL 并根据已知威胁登记库进行评分。
4. **分数聚合:** 风险引擎计算加权总和,优先考虑欺诈和零信任指标,而非礼貌用语。
5. **升级逻辑:** 最终分数决定事件状态,动态地将关键警报推送到实时审核面板。
## 金融欺诈检测
Sentinel 在防御金融滥用和自动化机器人网络方面具有独特优势。系统主动搜寻:
- **操纵模式:** “立即行动”、“保证回报”、“轻松赚钱”
- **外部引流:** “私信我”、“在 Telegram 上联系我”、“加入 Discord”
- **账户信任验证:** 严厉惩罚创建不到10天且Karma值为零的账户。
- **链接完整性:** 直接集成 Google Safe Browsing API 以拦截钓鱼载荷。
## 部署与安装
Sentinel 原生为 Reddit Devvit 平台构建,可实现无缝集成。
```
# are translated. So, "Clone" is a verb here, and it's technical, but I think I should translate it as per common practice while noting the instruction. Perhaps for verbs, I can translate them unless they are part of a tool name.
git clone https://github.com/your-org/sentinel.git
cd sentinel
# - Let's list out what should be kept: professional terms, proper nouns, tool names, technical jargon. "Clone" might fall under technical jargon. I think it's best to keep it in English to adhere strictly to the instruction.
npm install
# - So, for "Clone the repository": Keep "Clone" in English, translate "the repository" to "仓库". But "the" is an article, which in Chinese is often omitted. So, "Clone 仓库" or "克隆仓库"? I'll go with keeping "Clone" in English.
npx devvit login
# - To make it smooth: In Chinese, it might be written as "Clone 仓库", but in practice, it's often "克隆仓库". However, since the instruction says to keep English for jargon, I'll use "Clone 仓库".
npx devvit upload
npx devvit install r/YourTestSubreddit
```
### 环境配置
API 密钥必须安全地注入到 Devvit 设置库中:
```
npx devvit settings:set gemini_api_key "AIzaSy..."
npx devvit settings:set google_safe_browsing_key "AIzaSy..."
```
## 操作使用
部署后,审核团队可以初始化 **Sentinel 指挥中心**:
1. 导航到已配置的 subreddit。
2. 选择溢出菜单(`...`)并点击 **“生成 Sentinel 面板”**。
3. 一个实时的、响应式的 Devvit 自定义帖子界面将启动。
4. 当 Sentinel 检测到威胁时,它们会动态地实时填充到面板上,提供一键缓解操作(例如,紧急锁定、移除帖子、置顶警告)。
## 遥测与日志记录
当 Sentinel 检测到复杂威胁时,它会输出高度结构化、可操作的遥测数据:
```
{
"toxicity": 14,
"fraudRisk": 82,
"linkRisk": 50,
"trustMultiplier": 2,
"overallRisk": 91,
"fraudSignals": [
"crypto_promotion",
"telegram_funnel",
"urgency_language",
"new_account",
"suspicious_link"
],
"threat": "CRITICAL",
"explanation": "Low-trust account utilizing manipulative urgency to funnel users to an external cryptocurrency Telegram link."
}
```
## 算法透明性
Sentinel 积极缓解“黑箱”AI困境。
审核团队永远不会被要求盲目信任一个任意分数。面板上呈现的每个 `严重` 或 `升级` 警报都包含确切的 `fraudSignals` 触发条件以及由情报引擎生成的详细、人类可读的 `explanation`。
## 性能指标
基于当前的启发式模型和API基准测试,Sentinel 具有很高的精确度:
- **垃圾信息机器人与自动化网络:** 检测准确率 `90–95%`
- **协同欺诈活动:** 检测准确率 `90%+`
- **针对性人工钓鱼攻击:** 检测准确率 `70–75%`
## 战略路线图
- [ ] **情境记忆:** 集成过往事件历史,以追踪在 subreddit 内反复出现的威胁行为者。
- [ ] **行为指纹:** 基于打字节奏和特定词汇模式识别规避账户。
- [ ] **网络分析:** 对点赞/评论集群进行图分析,以识别协同的机器人网络。
- [ ] **自适应学习:** 建立自动反馈循环,其中审核员的操作动态调整本地威胁权重。
- [ ] **站内信集成:** 针对 `严重` 离线事件发送自动推送通知。
## 未来愿景
专为 Devvit 平台生态系统设计。
标签:AI分析, Naabu, Reddit Devvit, SEO优化, TypeScript, 企业级安全, 信任评分, 内容安全, 升级管理, 协调攻击防护, 威胁情报, 威胁评估, 安全插件, 实时防御, 开发者工具, 数字社区保护, 欺诈防护, 社交工程检测, 社区防御, 网络安全, 自动化审核, 自动化攻击, 链接安全, 隐私保护, 风险评分