roostorg/model-community
GitHub: roostorg/model-community
RMC 是一个汇集开放式安全 AI 模型资源、文档和社区协作的生态系统,致力于让 Trust & Safety 从业者和开发者能够免费获取并实际部署经过安全微调的 AI 模型。
Stars: 114 | Forks: 15
# ROOST Model 社区
欢迎来到 ROOST Model Community (RMC)!RMC 的使命是让开放式安全 AI 模型能够为安全社区所获取并带来益处。为了实现这一使命,我们正在构建一个由开发者、从业者、模型创建者以及所有共同致力于保护在线空间的人士组成的生态系统。
RMC 力求为开放式安全模型的活跃及潜在用户,以及这些模型的开发者(称为 RMC Partners)带来切实的价值。RMC 的参与者将受益于:
- **一个值得信赖的社区**:我们仅与您可以信赖的高质量开放式安全模型合作;请参阅我们的模型选择[资格标准]。RMC 还负责管理社区对话,通过日常活动和我们 [Discord server] 中的日常交流,鼓励大家持续参与并共同解决问题。
- **教育与实施支持**:我们分享各种资源,帮助您更好地了解开放式安全领域,包括面向 Trust & Safety 的 AI 入门指南和评估结果。当您准备好使用特定模型时,RMC 还提供实施技巧和文档,例如示例数据集或与其他 ROOST 项目的直接集成。
- **迭代改进**:通过将用户与模型创建者直接联系起来,RMC 帮助模型创建者根据最新反馈保持模型的更新。
## 浏览本仓库
本仓库是查找社区资源(包括 RMC Partner 模型资源)的大本营。如果您想做出贡献但不确定是否合适,请随时[提交一个 issue]!
您可以直接在 GitHub 上浏览当前的资源:
- [gpt-oss-safeguard/](gpt-oss-safeguard):与 OpenAI 的自带策略安全推理模型相关的资源和项目
- [cope-b/](cope-b):与 Zentropi 的自带策略安全模型相关的资源和项目
- [projects/](projects):非特定于 RMC 模型的有趣演示
- [resources/](resources):供整个社区使用的开放式安全模型资源,不局限于任何单一的 RMC Partner。包括:
- [RMC 开放式安全模型使用指南](resources/RMC%20Guide%20to%20Using%20Open%20Safety%20Models.md) — 介绍如何在 T&S 架构的检测、调查、审查和执行阶段应用开放式安全模型
- [policy-packs/](resources/policy-packs) — 由合作伙伴提供的策略提示词包,按提交者分类,可直接与遵循策略的开放式安全模型配合使用
- 用于非 RMC 模型的其他代码片段和补充材料
## 加入我们!
ROOST、我们的合作伙伴以及我们的社区正在努力打造一个出色的协作空间,但我们无法独自完成!我们需要**您**带来自己的想法、专业知识和意见,共同打造让我们都能引以为豪的事物。
- **加入我们的[双周办公时间](https://github.com/roostorg/model-community/discussions/categories/office-hours),与 T&S 同行和 RMC 模型合作伙伴直接交流**。获得面对面交流的机会,讨论哪些方法有效,分享想法等等。
- **加入项目冲刺**。我们定期举办项目冲刺活动,社区成员可以在此共同致力于解决安全社区面临的更广泛问题的交付成果。这些都是完全自愿的;您可以按照自己的意愿进行贡献。
- **[发起或加入关于模型使用的讨论](https://github.com/roostorg/model-community/discussions)**。审查新的评估、发现、模型反馈和实施技巧,或分享您自己的内容!请记住,如果您遇到了问题,其他人可能也会遇到!这些反馈对于帮助 T&S 从业者以及利用反馈改进模型的模型创建者来说也至关重要。
- **[提交一个 issue] 分享如何改进这个社区**。例如,如果您想请求一个新的讨论话题或 issue 标签,或者您想帮忙为仓库添加特定的文档或指南。
- **加入我们的 [Discord server],与其他从业者和模型创建者进行实时聊天**。我们相当活跃,但您可以根据适合自己的程度随意参与。这是一个不那么正式、节奏更快的优质环境,可用于分享链接、提出问题、了解即将举行的活动等等。
RMC 向所有人开放,但我们的主要侧重于那些试图提高其平台安全性,并好奇 AI 模型能如何提供帮助的开发者。这些开发者可能在公司担任正式的 Trust & Safety 职务,也可能是运行去中心化社交网络等自托管平台的个人用户。
专注于_创建_开放式安全模型的开发者也是这个生态系统的一部分,但深入参与该领域属于 AI/ML 工程中的一个独立分支,并非我们的主要目的。
## 什么是“开放式安全模型”?
关于什么使模型变得“开放”,并没有一个[统一的定义](https://arxiv.org/abs/2405.15802)。开放性可以应用于技术栈的不同部分——从数据集和权重到系统级的防护措施和文档——并且程度各不相同。在 ROOST,我们相信开源方法可以扩大对 Trust & Safety 工具的获取范围,并有助于创造一个更安全的互联网。与此同时,关于开源许可和规范如何应用于 AI 系统的问题仍未解决,并在不断发展演变。
就我们的目的而言,我们将“开放式安全模型”视为一种 AI 模型(包括但不限于大型语言模型和传统分类器),它:
- 获取无需花费金钱成本(例如,可下载的权重可免费获取)
- 部署不依赖于特定平台
- 专门针对 Trust & Safety 目的进行了微调
此外,我们更倾向于没有非商业许可,且不会对输出的处理方式施加限制的模型。这是因为这些模型的许多用例发生在商业环境中,并且具有报告要求(例如 CSAM)。这些许可限制与我们旨在支持的 Trust & Safety 用户不相容。
尽管存在许多开放式安全模型,但我们对 RMC Partners 设定了特定的标准。要正式成为 RMC 合作伙伴,模型必须符合我们的[资格标准]。在将模型添加到社区之前,我们会与 RMC 合作伙伴密切合作,确保其模型符合这些标准。如果您对这些标准有任何疑问,请随时与我们联系——我们设计这些标准是为了满足社区的需求,并且非常欢迎反馈!
## RMC Partners
- OpenAI: [gpt-oss-safeguard](https://huggingface.co/collections/openai/gpt-oss-safeguard)
- Zentropi: [CoPE-B-A4B](https://huggingface.co/zentropi-ai/cope-b-a4b)
RMC Partners 享受多种权益,包括:
- 推广他们的模型(例如,在办公时间进行演示、在活动中提供支持)
- 为模型入门资源做出贡献(例如,文档、实施技巧、根据需要与其他 ROOST 工具集成)
- 支持收集产品反馈
我们致力于为所有模型开发者构建一个友好、包容的社区。我们始终鼓励非合作伙伴的模型创建者参与 RMC 的项目活动,即使他们并不完全符合合作伙伴的资格标准。
如需讨论成为 RMC Partner,请发送电子邮件至 hello@roost.tools。
## 我们对开放式模型协作的方法
在线安全领域长期以来一直依赖机器学习来识别违规策略的行为,但最近经过安全调优的 AI 模型所取得的进展,为基于自定义规则检测和分类有害内容提供了前所未有的能力。通过将这些强大的模型公开开放,并将其集成到开源工具中,我们的目标是普及由 AI 驱动的安全功能,而这些功能以前只有资源丰富的组织才能获得。
传统的开源开发模式适用于软件,但 AI 模型带来了独特的挑战;它需要敏感的训练数据、大量的计算资源,并且具有与代码根本不同的开发生命周期。
我们的社区将开源软件开发中的开放获取和社区精神带到了 AI 模型中,这得益于与 AI 研究人员和模型创建者的合作。这些合作伙伴承诺开发并公开发布经过安全微调的模型权重,这些模型可以免费获取、在部署上不依赖于特定平台,并且在其许可中没有商业或输出限制。他们还积极参与社区活动,收集从业者的反馈并支持他们的实施历程。反过来,ROOST 培育了一个充满活力的实践社区,安全团队在这里分享在真实场景中成功部署这些模型的知识和策略。
标签:AI安全模型, C2, IaC 扫描, Naabu, 人工智能, 信任与安全, 内容安全, 用户模式Hook绕过, 社区生态