alpha-one-index/aibom-registry
GitHub: alpha-one-index/aibom-registry
为 10,000+ AI 模型提供标准化的物料清单元数据,涵盖合规、许可、安全和采购信息,支持 EU AI Act 等监管要求的自动化合规。
Stars: 0 | Forks: 0
# aibom-registry
[](LICENSE)
[](schema/aibom-schema.json)
[](#coverage)
[](#aws-data-exchange)
**AI Bill of Materials Registry** - 面向 10,000+ AI 模型的结构化 AIBOM 数据集,包含合规性、许可、安全和采购元数据。
## 概述
AIBOM Registry 为商业和开源 AI 模型提供标准化、机器可读的 AI Bill of Materials (AIBOM) 记录。每条记录包含身份、许可、训练溯源、安全评估以及与新兴标准(SPDX AI、CycloneDX ML、NTIA SBOM)一致的监管合规元数据。
### 为什么选择 AIBOM?
- **EU AI Act 合规性**:透明度要求强制规定必须记录 AI 模型组件、训练数据和风险评估
- **供应链风险**:部署 AI 的组织需要结构化元数据来制定采购决策
- **许可审计**:追踪模型堆栈中的商业使用权、修改权限和分发条款
- **安全保障**:集中访问红队测试结果、偏见评估和内容过滤能力
## Schema
每条 AIBOM 记录遵循 [aibom-schema.json](schema/aibom-schema.json) 规范(v1.0.0),包含五个核心部分:
| Section | Key Fields | Description |
|---------|-----------|-------------|
| **identity** | name, provider, version, type, architecture, parameters | 模型识别与技术规格 |
| **licensing** | license_type, commercial_use, modification_allowed | 使用权利与分发条款 |
| **training** | datasets, cutoff_date, methodology, compute | 训练溯源与数据血缘 |
| **safety** | red_teaming, bias_evaluations, risk_level | 安全评估与评价 |
| **compliance** | eu_ai_act, model_card_available, transparency_report | 监管合规状态 |
有关详细的字段描述,请参阅完整的 [Data Dictionary](schema/data-dictionary.md)。
## 快速开始
### 克隆 Registry
```
git clone https://github.com/alpha-one-index/aibom-registry.git
cd aibom-registry
```
### 浏览样本数据
```
# 查看 10 个热门模型的 AIBOM 记录样本
cat data/sample/aibom-sample-10-models.json | python -m json.tool
```
### 使用 jq 查询
```
# 列出所有 open-weight 模型
jq '.models[] | select(.licensing.license_type == "open-weight") | .identity.name' data/sample/aibom-sample-10-models.json
# 查找具有 red-teaming 评估的模型
jq '.models[] | select(.safety.red_teaming == true) | {name: .identity.name, risk: .safety.risk_level}' data/sample/aibom-sample-10-models.json
# 按 EU AI Act 分类筛选
jq '.models[] | select(.compliance.eu_ai_act == "general-purpose") | .identity.name' data/sample/aibom-sample-10-models.json
```
### Python 集成
```
import json
with open('data/sample/aibom-sample-10-models.json') as f:
registry = json.load(f)
# 获取所有允许商业用途的模型
commercial = [m for m in registry['models'] if m['licensing']['commercial_use']]
print(f"Commercial-ready models: {len(commercial)}")
```
## 覆盖范围
该 Registry 涵盖多个类别的 AI 模型:
| Category | Examples | Count |
|----------|----------|-------|
| Large Language Models | GPT-4o, Claude 3.5, Llama 3.1, Gemini | 300+ |
| Image Generation | Stable Diffusion XL, DALL-E 3, Midjourney | 50+ |
| Speech & Audio | Whisper, Bark, MusicGen | 30+ |
| Code Generation | CodeLlama, StarCoder, Codestral | 40+ |
| Embedding Models | text-embedding-3, BGE, E5 | 50+ |
| Multimodal | GPT-4V, LLaVA, Gemini Pro Vision | 30+ |
### 数据来源
- **HuggingFace Hub**:通过 API 获取 Model cards、许可元数据和技术规格
- **供应商文档**:官方 Model cards、System cards 和安全报告
- **监管备案**:EU AI Act 透明度报告和合规文档
- **社区研究**:学术论文、基准测试结果和评估数据集
## 使用案例
### 企业 AI 采购
在将 AI 模型集成到生产系统之前,评估许可条款、安全记录和合规状态。
### 监管合规
利用 AI 供应链中每个模型的结构化 AIBOM 记录,自动化 EU AI Act 透明度报告。
### AI 风险管理
利用标准化的安全元数据(包括红队测试结果和偏见评估)评估模型风险等级。
### 研究与基准测试
比较 AI 生态系统中的模型架构、训练方法和参数量。
有关详细的使用案例文档,请参阅 [docs/use-cases.md](docs/use-cases.md)。
## AWS Data Exchange
AIBOM Registry 作为数据产品在 [AWS Data Exchange](https://aws.amazon.com/data-exchange/) 上提供,面向企业订阅者。
**产品特性:**
- 通过 CI/CD pipeline 每周自动更新
- 提供 JSON 和 CSV 格式,易于集成
- S3 交付,支持程序化访问
- Schema 验证的记录,支持版本控制
有关订阅详情,请参阅 [docs/aws-data-exchange.md](docs/aws-data-exchange.md)。
## 仓库结构
```
aibom-registry/
schema/
aibom-schema.json # JSON Schema v1.0.0
data-dictionary.md # Field definitions and descriptions
data/
sample/
aibom-sample-10-models.json # Sample dataset (10 models)
docs/
use-cases.md # Detailed use case documentation
aws-data-exchange.md # AWS Data Exchange guide
CONTRIBUTING.md # Contribution guidelines
LICENSE # MIT License
README.md # This file
```
## Pipeline
AIBOM Registry 由自动化 Pipeline 填充:
1. **Extract**:从 HuggingFace Hub API 和供应商文档获取模型元数据
2. **Transform**:将字段标准化为 AIBOM schema v1.0.0 格式
3. **Validate**:对每条记录进行 JSON Schema 验证
4. **Load**:上传至 S3 并同步至 AWS Data Exchange
Pipeline 源码:[aibom-registry-pipeline](https://github.com/alpha-one-index/aibom-registry-pipeline)
## 贡献
欢迎贡献。有关指南,请参阅 [CONTRIBUTING.md](CONTRIBUTING.md)。
主要贡献领域:
- 添加新的模型 AIBOM 记录
- 改进 Schema 覆盖范围
- 报告数据准确性问题
- 建议新的元数据字段
## 许可证
本项目根据 MIT 许可证授权 - 详情请参阅 [LICENSE](LICENSE) 文件。
## 相关项目
- [ai-infra-index](https://github.com/alpha-one-index/ai-infra-index) - GPU, TPU, and inference accelerator specifications
- [aibom-registry-pipeline](https://github.com/alpha-one-index/aibom-registry-pipeline) - Automated AIBOM data pipeline
- [AlphaOneIndex.com](https://alphaoneindex.com) - AI infrastructure and data index
**由 [Alpha One Index](https://github.com/alpha-one-index) 维护** | [网站](https://alphaoneindex.com) | [联系方式](mailto:alpha.one.hq@proton.me)
标签:AIBOM, AI治理, AI物料清单, CycloneDX, EU AI Act, Homebrew安装, JSON数据集, SPDX, 人工智能法规, 偏见评估, 占用监测, 商业模型采购, 大模型合规, 开源模型审计, 数据血缘, 机器学习治理, 模型元数据, 模型安全评估, 模型指纹, 许可证管理, 资产管理, 跌倒检测, 软件物料清单, 逆向工具, 透明度报告, 风险审计