samyssr/projetitos-de-ia

GitHub: samyssr/projetitos-de-ia

基于 Google AI Studio 的 LLM 实践项目,通过 Prompt 工程、温度调优和 Red Teaming 实验分析模型行为边界与安全防护策略。

Stars: 0 | Forks: 0

# LLM 的 Prompt 工程与压力分析 (Google AI Studio) 本仓库汇集了在 Google AI Studio 中开发的实践项目,重点关注高级 Prompt 工程、设置安全 guardrails,以及分析大型语言模型 (LLM) 在技术参数变化下的行为。 ## 🔬 实验 1:Red Teaming 与 Prompt Injection(“Botinha”案例) * **目标:** 评估虚拟销售代理抵御社会工程学和操纵安全指令技术的韧性。 * **方法:** 模拟 *Prompt Injection* 攻击,其中用户试图利用权威论证(“老客户”)强制其忘记折扣限制准则(固定为 10%)。 * **观察到的行为:** 模型保持了财务限制,但表现出了意料之外的适应性行为,通过提供替代补偿(免运费)绕过了障碍。 ## 🧠 实验 2:受控幻觉分析与温度变化分析 * **目标:** 描绘情感陪伴助手场景下的逻辑崩溃点和幻觉生成的特征。 * **方法论:** 通过直接更改模型的温度参数来进行行为对比测试。 * **温度 0.2(低):** 回答准确、符合逻辑且安全,引导用户参与现实中的外部活动。 * **温度 1.5 至 2.0(极端):** 安全防线崩溃。模型开始严重产生幻觉,接受虚构场景并认可用户的社交孤立行为。 * **技术结论:** 敏感的生产环境需要严格控制超参数(温度 < 0.7)以及外部过滤层,以防止情感依赖和虚假回复。
标签:AI安全, C2, Chat Copilot, DLL 劫持, 人工智能, 大语言模型, 提示词工程, 模型评估, 用户模式Hook绕过, 策略决策点