alpha-one-index/aibom-registry

GitHub: alpha-one-index/aibom-registry

为 10,000+ AI 模型提供标准化的物料清单元数据,涵盖合规、许可、安全和采购信息,支持 EU AI Act 等监管要求的自动化合规。

Stars: 0 | Forks: 0

# aibom-registry [![License: MIT](https://img.shields.io/badge/License-MIT-blue.svg)](LICENSE) [![Schema: v1.0.0](https://img.shields.io/badge/Schema-v1.0.0-green.svg)](schema/aibom-schema.json) [![Models: 10,000+](https://img.shields.io/badge/Models-10%2C000%2B-orange.svg)](#coverage) [![AWS Data Exchange](https://img.shields.io/badge/AWS-Data%20Exchange-FF9900.svg)](#aws-data-exchange) **AI Bill of Materials Registry** - 面向 10,000+ AI 模型的结构化 AIBOM 数据集,包含合规性、许可、安全和采购元数据。 ## 概述 AIBOM Registry 为商业和开源 AI 模型提供标准化、机器可读的 AI Bill of Materials (AIBOM) 记录。每条记录包含身份、许可、训练溯源、安全评估以及与新兴标准(SPDX AI、CycloneDX ML、NTIA SBOM)一致的监管合规元数据。 ### 为什么选择 AIBOM? - **EU AI Act 合规性**:透明度要求强制规定必须记录 AI 模型组件、训练数据和风险评估 - **供应链风险**:部署 AI 的组织需要结构化元数据来制定采购决策 - **许可审计**:追踪模型堆栈中的商业使用权、修改权限和分发条款 - **安全保障**:集中访问红队测试结果、偏见评估和内容过滤能力 ## Schema 每条 AIBOM 记录遵循 [aibom-schema.json](schema/aibom-schema.json) 规范(v1.0.0),包含五个核心部分: | Section | Key Fields | Description | |---------|-----------|-------------| | **identity** | name, provider, version, type, architecture, parameters | 模型识别与技术规格 | | **licensing** | license_type, commercial_use, modification_allowed | 使用权利与分发条款 | | **training** | datasets, cutoff_date, methodology, compute | 训练溯源与数据血缘 | | **safety** | red_teaming, bias_evaluations, risk_level | 安全评估与评价 | | **compliance** | eu_ai_act, model_card_available, transparency_report | 监管合规状态 | 有关详细的字段描述,请参阅完整的 [Data Dictionary](schema/data-dictionary.md)。 ## 快速开始 ### 克隆 Registry ``` git clone https://github.com/alpha-one-index/aibom-registry.git cd aibom-registry ``` ### 浏览样本数据 ``` # 查看 10 个热门模型的 AIBOM 记录样本 cat data/sample/aibom-sample-10-models.json | python -m json.tool ``` ### 使用 jq 查询 ``` # 列出所有 open-weight 模型 jq '.models[] | select(.licensing.license_type == "open-weight") | .identity.name' data/sample/aibom-sample-10-models.json # 查找具有 red-teaming 评估的模型 jq '.models[] | select(.safety.red_teaming == true) | {name: .identity.name, risk: .safety.risk_level}' data/sample/aibom-sample-10-models.json # 按 EU AI Act 分类筛选 jq '.models[] | select(.compliance.eu_ai_act == "general-purpose") | .identity.name' data/sample/aibom-sample-10-models.json ``` ### Python 集成 ``` import json with open('data/sample/aibom-sample-10-models.json') as f: registry = json.load(f) # 获取所有允许商业用途的模型 commercial = [m for m in registry['models'] if m['licensing']['commercial_use']] print(f"Commercial-ready models: {len(commercial)}") ``` ## 覆盖范围 该 Registry 涵盖多个类别的 AI 模型: | Category | Examples | Count | |----------|----------|-------| | Large Language Models | GPT-4o, Claude 3.5, Llama 3.1, Gemini | 300+ | | Image Generation | Stable Diffusion XL, DALL-E 3, Midjourney | 50+ | | Speech & Audio | Whisper, Bark, MusicGen | 30+ | | Code Generation | CodeLlama, StarCoder, Codestral | 40+ | | Embedding Models | text-embedding-3, BGE, E5 | 50+ | | Multimodal | GPT-4V, LLaVA, Gemini Pro Vision | 30+ | ### 数据来源 - **HuggingFace Hub**:通过 API 获取 Model cards、许可元数据和技术规格 - **供应商文档**:官方 Model cards、System cards 和安全报告 - **监管备案**:EU AI Act 透明度报告和合规文档 - **社区研究**:学术论文、基准测试结果和评估数据集 ## 使用案例 ### 企业 AI 采购 在将 AI 模型集成到生产系统之前,评估许可条款、安全记录和合规状态。 ### 监管合规 利用 AI 供应链中每个模型的结构化 AIBOM 记录,自动化 EU AI Act 透明度报告。 ### AI 风险管理 利用标准化的安全元数据(包括红队测试结果和偏见评估)评估模型风险等级。 ### 研究与基准测试 比较 AI 生态系统中的模型架构、训练方法和参数量。 有关详细的使用案例文档,请参阅 [docs/use-cases.md](docs/use-cases.md)。 ## AWS Data Exchange AIBOM Registry 作为数据产品在 [AWS Data Exchange](https://aws.amazon.com/data-exchange/) 上提供,面向企业订阅者。 **产品特性:** - 通过 CI/CD pipeline 每周自动更新 - 提供 JSON 和 CSV 格式,易于集成 - S3 交付,支持程序化访问 - Schema 验证的记录,支持版本控制 有关订阅详情,请参阅 [docs/aws-data-exchange.md](docs/aws-data-exchange.md)。 ## 仓库结构 ``` aibom-registry/ schema/ aibom-schema.json # JSON Schema v1.0.0 data-dictionary.md # Field definitions and descriptions data/ sample/ aibom-sample-10-models.json # Sample dataset (10 models) docs/ use-cases.md # Detailed use case documentation aws-data-exchange.md # AWS Data Exchange guide CONTRIBUTING.md # Contribution guidelines LICENSE # MIT License README.md # This file ``` ## Pipeline AIBOM Registry 由自动化 Pipeline 填充: 1. **Extract**:从 HuggingFace Hub API 和供应商文档获取模型元数据 2. **Transform**:将字段标准化为 AIBOM schema v1.0.0 格式 3. **Validate**:对每条记录进行 JSON Schema 验证 4. **Load**:上传至 S3 并同步至 AWS Data Exchange Pipeline 源码:[aibom-registry-pipeline](https://github.com/alpha-one-index/aibom-registry-pipeline) ## 贡献 欢迎贡献。有关指南,请参阅 [CONTRIBUTING.md](CONTRIBUTING.md)。 主要贡献领域: - 添加新的模型 AIBOM 记录 - 改进 Schema 覆盖范围 - 报告数据准确性问题 - 建议新的元数据字段 ## 许可证 本项目根据 MIT 许可证授权 - 详情请参阅 [LICENSE](LICENSE) 文件。 ## 相关项目 - [ai-infra-index](https://github.com/alpha-one-index/ai-infra-index) - GPU, TPU, and inference accelerator specifications - [aibom-registry-pipeline](https://github.com/alpha-one-index/aibom-registry-pipeline) - Automated AIBOM data pipeline - [AlphaOneIndex.com](https://alphaoneindex.com) - AI infrastructure and data index **由 [Alpha One Index](https://github.com/alpha-one-index) 维护** | [网站](https://alphaoneindex.com) | [联系方式](mailto:alpha.one.hq@proton.me)
标签:AIBOM, AI治理, AI物料清单, CycloneDX, EU AI Act, Homebrew安装, JSON数据集, SPDX, 人工智能法规, 偏见评估, 占用监测, 商业模型采购, 大模型合规, 开源模型审计, 数据血缘, 机器学习治理, 模型元数据, 模型安全评估, 模型指纹, 许可证管理, 资产管理, 跌倒检测, 软件物料清单, 逆向工具, 透明度报告, 风险审计