awesomelistsio/awesome-ai-safety-alignment

GitHub: awesomelistsio/awesome-ai-safety-alignment

聚焦AI安全与对齐领域的精选资源索引,涵盖研究机构、安全框架、红队测试、评估基准、数据集、模型治理和学习资源的完整知识图谱。

Stars: 3 | Forks: 1

# Awesome AI Safety & Alignment [![Awesome Lists](https://srv-cdn.himpfen.io/badges/awesome-lists/awesomelists-flat.svg)](https://github.com/awesomelistsio/awesome) ## 目录 - [研究机构](#research-organizations) - [安全框架](#safety-frameworks) - [红队测试与威胁建模](#red-teaming--threat-modeling) - [评估与基准](#evaluation--benchmarks) - [模型治理与政策](#model-governance--policy) - [数据集](#datasets) - [学习资源](#learning-resources) - [相关 Awesome Lists](#related-awesome-lists) ## 研究机构 - [Alignment Research Center (ARC)](https://alignment.org/) – 关于可扩展监督和模型评估的研究。 - [AI Safety Center (UK)](https://www.aisc.gov.uk/) – 政府支持的安全和模型评估倡议。 - [OpenAI Safety](https://openai.com/safety) – 关于鲁棒性、红队测试和对齐的研究。 - [Anthropic Safety](https://www.anthropic.com/safety) – 致力于可解释性和前沿模型评估的安全团队。 - [DeepMind Safety Research](https://deepmind.google/discover/blog) – 关于可扩展监督、对齐和鲁棒性的研究。 - [Center for AI Safety (CAIS)](https://www.safe.ai/) – 公共安全教育、基准测试和政策指导。 - [ELEUTHERAI](https://www.eleuther.ai/) – 具有安全驱动倡议的开源 AI 研究。 ## 安全框架 - [OpenAI Model Spec](https://openai.com/model-spec) – 定义预期安全模型行为的规范。 - [Anthropic Constitutional AI](https://www.anthropic.com/news/constitutional-ai) – 使用基于规则的宪法约束来训练模型的框架。 - [Google Responsible AI Practices](https://ai.google/responsibility/) – 安全 AI 开发的原则和框架。 - [OECD AI Principles](https://oecd.ai/en/ai-principles) – 可信 AI 的国际标准。 - [NIST AI Risk Management Framework](https://www.nist.gov/itl/ai-risk-management-framework) – 评估 AI 风险的美国国家标准。 - [EU AI Act Summary](https://artificialintelligenceact.eu/) – 针对高风险和通用 AI 系统的监管框架。 ## 红队测试与威胁建模 - [OpenAI Red Teaming Network](https://openai.com/red-teaming-network) – 用于模型评估的全球研究合作。 - [Anthropic Red Teaming Resources](https://www.anthropic.com/) – 聚焦安全的对抗性测试方法。 - [Microsoft AI Red Team](https://www.microsoft.com/en-us/security/blog/) – AI 系统安全性与安全性测试的方法论。 - [AI Safety Threat Modeling](https://github.com/topics/ai-safety) – 用于威胁分析的社区工具和文档。 - [LLM Jailbreak Prompts Datasets](https://github.com/topics/jailbreak-prompts) – 用于鲁棒性测试的对抗性提示集合。 ## 评估与基准 - [HELM](https://crfm.stanford.edu/helm/latest/) – 跨安全和风险领域的语言模型整体评估。 - [Anthropic Evaluations](https://github.com/anthropics/evals) – 针对前沿模型的安全评估。 - [OpenAI Evals](https://github.com/openai/evals) – 用于测试模型安全性、推理能力和可靠性的框架。 - [Red Teaming Benchmarks](https://github.com/topics/llm-evaluation) – 社区驱动的安全评估。 - [ToxiGen](https://github.com/microsoft/Counterfit/) – 用于评估有害或毒性输出的数据集。 - [SafetyBench](https://github.com/centerforaisafety/SafetyBench) – AI 安全场景的基准框架。 ## 模型治理与政策 - [AI Safety Institute (UK)](https://www.aisi.gov.uk/) – 前沿模型安全测试的国际协调。 - [AI Safety Institute (US)](https://www.ai.gov/) – 美国的政策、评估和治理工作。 - [OECD AI Governance Hub](https://oecd.ai/en/) – AI 对齐的监管和政策资源。 - [UNESCO AI Ethics Framework](https://www.unesco.org/en/artificial-intelligence/ethics) – 伦理 AI 的全球规范性框架。 - [Global AI Safety Summits](https://www.gov.uk/government/publications) – 来自全球模型安全会议的协议和章程。 ## 数据集 - [JailbreakBench](https://github.com/verazuo/jailbreakbench) – 用于评估越狱易感性的数据集。 - [HarmBench](https://github.com/centerforaisafety/HarmBench) – 用于 AI 危害分类和安全测试的多领域数据集。 - [RealToxicityPrompts](https://allenai.org/data/real-toxicity-prompts) – 用于鲁棒性评估的对抗性或有害提示。 - [AdvBench](https://github.com/safety-ai/AdvBench) – 用于对抗性攻击和安全测试的数据集。 ## 学习资源 - [AI Alignment Fundamentals (BlueDot)](https://www.alignmentfundamentals.com/) – 对齐入门课程。 - [AGI Safety Fundamentals](https://agi-safety-fundamentals.com/) – 关于对齐、安全和治理的结构化课程。 - [OpenAI Safety Papers](https://openai.com/research) – 关于对齐和模型评估的研究论文。 - [Anthropic Interpretability Research](https://www.anthropic.com/research) – 关于模型内部机制的论文和发现。 - [DeepMind Safety Papers](https://deepmind.google/research) – 关于监督、鲁棒性和对齐的研究。 - [CAIS Safety Curriculum](https://www.safe.ai/) – 入门和进阶学习路径。 ## 相关 Awesome Lists - [Awesome AI](https://github.com/awesomelistsio/awesome-ai) - [Awesome Machine Learning](https://github.com/awesomelistsio/awesome-machine-learning) - [Awesome AI Research Papers](https://github.com/awesomelistsio/awesome-ai-research-papers) - [Awesome AI Ethics](https://github.com/awesomelistsio/awesome-ai-ethics) - [Awesome Open Governance](https://github.com/awesomelistsio/awesome-open-governance) ## 贡献 欢迎贡献。请确保您的提交完全遵循 [`CONTRIBUTING.md`](CONTRIBUTING.md) 中概述的要求,包括格式、范围对齐和类别放置。 不符合贡献指南的 Pull requests 可能会被关闭。 ## 许可证 [![CC0](https://mirrors.creativecommons.org/presskit/buttons/88x31/svg/by-sa.svg)](http://creativecommons.org/licenses/by-sa/4.0/)
标签:AI安全, AI对齐, Apex, Chat Copilot, NIST框架, Ruby, 人工智能安全, 人工智能治理, 可扩展监督, 可解释性, 合规性, 大模型安全, 威胁建模, 宪法AI, 技术标准, 机器学习, 模型评估, 深度学习安全, 知识库, 防御加固, 风险治理