awesomelistsio/awesome-ai-safety-alignment
GitHub: awesomelistsio/awesome-ai-safety-alignment
聚焦AI安全与对齐领域的精选资源索引,涵盖研究机构、安全框架、红队测试、评估基准、数据集、模型治理和学习资源的完整知识图谱。
Stars: 3 | Forks: 1
# Awesome AI Safety & Alignment [](https://github.com/awesomelistsio/awesome)
## 目录
- [研究机构](#research-organizations)
- [安全框架](#safety-frameworks)
- [红队测试与威胁建模](#red-teaming--threat-modeling)
- [评估与基准](#evaluation--benchmarks)
- [模型治理与政策](#model-governance--policy)
- [数据集](#datasets)
- [学习资源](#learning-resources)
- [相关 Awesome Lists](#related-awesome-lists)
## 研究机构
- [Alignment Research Center (ARC)](https://alignment.org/) – 关于可扩展监督和模型评估的研究。
- [AI Safety Center (UK)](https://www.aisc.gov.uk/) – 政府支持的安全和模型评估倡议。
- [OpenAI Safety](https://openai.com/safety) – 关于鲁棒性、红队测试和对齐的研究。
- [Anthropic Safety](https://www.anthropic.com/safety) – 致力于可解释性和前沿模型评估的安全团队。
- [DeepMind Safety Research](https://deepmind.google/discover/blog) – 关于可扩展监督、对齐和鲁棒性的研究。
- [Center for AI Safety (CAIS)](https://www.safe.ai/) – 公共安全教育、基准测试和政策指导。
- [ELEUTHERAI](https://www.eleuther.ai/) – 具有安全驱动倡议的开源 AI 研究。
## 安全框架
- [OpenAI Model Spec](https://openai.com/model-spec) – 定义预期安全模型行为的规范。
- [Anthropic Constitutional AI](https://www.anthropic.com/news/constitutional-ai) – 使用基于规则的宪法约束来训练模型的框架。
- [Google Responsible AI Practices](https://ai.google/responsibility/) – 安全 AI 开发的原则和框架。
- [OECD AI Principles](https://oecd.ai/en/ai-principles) – 可信 AI 的国际标准。
- [NIST AI Risk Management Framework](https://www.nist.gov/itl/ai-risk-management-framework) – 评估 AI 风险的美国国家标准。
- [EU AI Act Summary](https://artificialintelligenceact.eu/) – 针对高风险和通用 AI 系统的监管框架。
## 红队测试与威胁建模
- [OpenAI Red Teaming Network](https://openai.com/red-teaming-network) – 用于模型评估的全球研究合作。
- [Anthropic Red Teaming Resources](https://www.anthropic.com/) – 聚焦安全的对抗性测试方法。
- [Microsoft AI Red Team](https://www.microsoft.com/en-us/security/blog/) – AI 系统安全性与安全性测试的方法论。
- [AI Safety Threat Modeling](https://github.com/topics/ai-safety) – 用于威胁分析的社区工具和文档。
- [LLM Jailbreak Prompts Datasets](https://github.com/topics/jailbreak-prompts) – 用于鲁棒性测试的对抗性提示集合。
## 评估与基准
- [HELM](https://crfm.stanford.edu/helm/latest/) – 跨安全和风险领域的语言模型整体评估。
- [Anthropic Evaluations](https://github.com/anthropics/evals) – 针对前沿模型的安全评估。
- [OpenAI Evals](https://github.com/openai/evals) – 用于测试模型安全性、推理能力和可靠性的框架。
- [Red Teaming Benchmarks](https://github.com/topics/llm-evaluation) – 社区驱动的安全评估。
- [ToxiGen](https://github.com/microsoft/Counterfit/) – 用于评估有害或毒性输出的数据集。
- [SafetyBench](https://github.com/centerforaisafety/SafetyBench) – AI 安全场景的基准框架。
## 模型治理与政策
- [AI Safety Institute (UK)](https://www.aisi.gov.uk/) – 前沿模型安全测试的国际协调。
- [AI Safety Institute (US)](https://www.ai.gov/) – 美国的政策、评估和治理工作。
- [OECD AI Governance Hub](https://oecd.ai/en/) – AI 对齐的监管和政策资源。
- [UNESCO AI Ethics Framework](https://www.unesco.org/en/artificial-intelligence/ethics) – 伦理 AI 的全球规范性框架。
- [Global AI Safety Summits](https://www.gov.uk/government/publications) – 来自全球模型安全会议的协议和章程。
## 数据集
- [JailbreakBench](https://github.com/verazuo/jailbreakbench) – 用于评估越狱易感性的数据集。
- [HarmBench](https://github.com/centerforaisafety/HarmBench) – 用于 AI 危害分类和安全测试的多领域数据集。
- [RealToxicityPrompts](https://allenai.org/data/real-toxicity-prompts) – 用于鲁棒性评估的对抗性或有害提示。
- [AdvBench](https://github.com/safety-ai/AdvBench) – 用于对抗性攻击和安全测试的数据集。
## 学习资源
- [AI Alignment Fundamentals (BlueDot)](https://www.alignmentfundamentals.com/) – 对齐入门课程。
- [AGI Safety Fundamentals](https://agi-safety-fundamentals.com/) – 关于对齐、安全和治理的结构化课程。
- [OpenAI Safety Papers](https://openai.com/research) – 关于对齐和模型评估的研究论文。
- [Anthropic Interpretability Research](https://www.anthropic.com/research) – 关于模型内部机制的论文和发现。
- [DeepMind Safety Papers](https://deepmind.google/research) – 关于监督、鲁棒性和对齐的研究。
- [CAIS Safety Curriculum](https://www.safe.ai/) – 入门和进阶学习路径。
## 相关 Awesome Lists
- [Awesome AI](https://github.com/awesomelistsio/awesome-ai)
- [Awesome Machine Learning](https://github.com/awesomelistsio/awesome-machine-learning)
- [Awesome AI Research Papers](https://github.com/awesomelistsio/awesome-ai-research-papers)
- [Awesome AI Ethics](https://github.com/awesomelistsio/awesome-ai-ethics)
- [Awesome Open Governance](https://github.com/awesomelistsio/awesome-open-governance)
## 贡献
欢迎贡献。请确保您的提交完全遵循 [`CONTRIBUTING.md`](CONTRIBUTING.md) 中概述的要求,包括格式、范围对齐和类别放置。
不符合贡献指南的 Pull requests 可能会被关闭。
## 许可证
[](http://creativecommons.org/licenses/by-sa/4.0/)
标签:AI安全, AI对齐, Apex, Chat Copilot, NIST框架, Ruby, 人工智能安全, 人工智能治理, 可扩展监督, 可解释性, 合规性, 大模型安全, 威胁建模, 宪法AI, 技术标准, 机器学习, 模型评估, 深度学习安全, 知识库, 防御加固, 风险治理