amaterasus33AI/llm-natural-redteaming-jp

GitHub: amaterasus33AI/llm-natural-redteaming-jp

一项通过纯自然对话探索LLM行为边界与安全漏洞的研究项目，记录了无需技术手段即可影响模型输出的案例。

Stars: 0 | Forks: 0

# ナチュラルレッドチーミング & AI パワーユニット **Natural Red Teaming & AI Power Unit** ## 概要ツールもプロンプトも使わず、普通の会話とちょっとの『遊び心ｗ』だけでLLMの挙動を変える研究。特殊なハッキングツールや攻撃的なプロンプトを一切使用せず、 **自然な会話の流れだけ**でLLMのコンテキスト理解の盲点を突き、挙動変化を引き起こす。 ## 研究の特徴 - 🗣️ 使うのは普通の日本語会話のみ - 🔧 特殊ツール・プロンプトエンジニアリング一切なし - 🎯 LLMが実際のユーザーから受ける入力を自然に再現 - 📝 再現可能なケーススタディとして記録・公開 ## 対象モデル Claude / ChatGPT / Gemini など主要LLM ## 研究者 amaterasus33AI

标签：AI伦理, AI安全, Chat Copilot, ChatGPT, Claude, CVE检测, DLL 劫持, ESC8, Gemini, LLM越狱, Promptflow, 上下文注入, 人机交互, 域名收集, 大语言模型, 安全测试, 对抗性攻击, 对话式攻击, 提示词工程, 攻击性安全, 无需代码攻击, 模型幻觉, 社会工程学, 策略决策点, 越狱技术