bytedance/Protenix

GitHub: bytedance/Protenix

Protenix 是一个开源的高准确度生物分子结构预测平台,致力于复现并超越 AlphaFold3 的性能。

Stars: 1808 | Forks: 260

# Protenix: Protein + X 我们很高兴推出 **Protenix** —— 面向高准确度开源生物分子结构预测。 Protenix 专为高准确度结构预测而构建,是我们迈向更易访问、更具可扩展性的计算生物学研究工具的旅程中的第一步。 Protenix predictions ## 🌟 相关项目 - **[PXDesign](https://protenix.github.io/pxdesign/)** 是一个基于 Protenix 基础模型构建的从头蛋白质结合器设计模型套件。PXDesign 在多个靶点上实现了 20%–73% 的实验成功率——比先前的 SOTA 方法(如 AlphaProteo 和 RFdiffusion)高出 2–6 倍。该框架可通过 Protenix 服务器免费访问。 - **[PXMeter](https://github.com/bytedance/PXMeter/)** 是一个用于结构预测模型可重复评估的开源工具包,发布时附带高质量基准数据集,该数据集经过人工审查以去除实验伪影和非生物相互作用。相关研究对前沿模型进行了深入的对比分析,从广泛的度量数据和详细的案例研究中提取洞见。Protenix 的评估基于 PXMeter。 - **[Protenix-Dock](https://github.com/bytedance/Protenix-Dock)**:我们对经典蛋白质-配体对接框架的实现,利用经验评分函数。不使用深度神经网络,Protenix-Dock 在刚性对接任务中展现出具有竞争力的性能。 ## 🎉 最新更新 - **2026-04-08: Protenix-v2 发布** 💪💪 [[Protenix-v2 技术报告](docs/PX2.pdf)] - Protenix-v2 在抗体-抗原结构预测方面展现出明显提升,同时在与配体相关的合理性方面也有额外更新。 - **2026-02-05: Protenix-v1 发布** 💪 [[Protenix-v1 技术报告](docs/PTX_V1_Technical_Report_202602042356.pdf)] - 支持模板/RNA MSA 特性,并改进了训练动态,同时进一步提升了推理时的模型性能。 - **2025-11-05: Protenix-v0.7.0 发布** 🚀 - 引入了先进的扩散推理优化:共享变量缓存、高效内核融合和 TF32 加速。参见我们的 [性能分析](./assets/inference_time_vs_ntoken.png)。 - **2025-07-17: Protenix-Mini 与约束特性** - 发布轻量化模型变体 ([Protenix-Mini](https://arxiv.org/abs/2507.11839)),在最小精度损失下显著降低推理成本。 - 新增对 [原子级接触与口袋约束](docs/infer_json_format.md#constraint) 的支持,通过物理先验提升预测准确性。 - **2025-01-16: 流水线增强** - 开源完整的 [训练数据流水线](./docs/prepare_training_data.md) 和 [MSA 流水线](./docs/msa_template_pipeline.md)。 - 集成本地 [ColabFold 兼容的搜索](./docs/colabfold_compatible_msa.md),用于简化 MSA 生成。 ## 🚀 快速上手 ### 🛠 快速安装 ``` pip install protenix ``` ### 🧬 快速预测 ``` # 使用 JSON 输入预测结构 protenix pred -i examples/input.json -o ./output -n protenix_base_default_v1.0.0 ``` #### 核心模型描述 | 模型名称 | MSA | RNA MSA | 模板 | 参数 | 训练数据截止 | 模型发布日期 | | :--- | :---: | :---: | :---: | :---: | :---: | :---: | | `protenix-v2` | ✅ | ✅ | ✅ | 464 M | 2021-09-30 | 2026-04-08 | | `protenix_base_default_v1.0.0` | ✅ | ✅ | ✅ | 368 M | 2021-09-30 | 2026-02-05 | | `protenix_base_20250630_v1.0.0` | ✅ | ✅ | ✅ | 368 M | 2025-06-30 | 2026-02-05 | | `protenix_base_default_v0.5.0` | ✅ | ❌ | ❌ | 368 M | 2021-09-30 | 2025-05-30 | - **protenix-v2**:基础模型的增强容量版本,特征表示维度更高、参数空间更大(约 464M),并进行了大量训练与优化改进。 - **protenix_base_default_v1.0.0**:基础模型,训练数据截止与 AlphaFold3 对齐(2021-09-30)。protenix_base_default_v1.0.0 的总参数数量接近 AlphaFold3。 - **protenix_base_20250630_v1.0.0**:应用模型,采用更新的数据截止(2025-06-30)以提升实际性能,适用于实际应用场景。 - **protenix_base_default_v0.5.0**:早期版本,主要用于与基于 v0.5.0 的用户保持向后兼容。 有关支持模型的完整列表,请参考 [支持模型](docs/supported_models.md)。 有关安装、数据预处理、推理和训练的详细说明,请参考 [训练与推理指南](docs/training_inference_instructions.md)。我们建议用户参考 [inference_demo.sh](inference_demo.sh) 获取详细的推理方法和输入说明。 ### 📊 基准测试 #### Protenix-v2 Protenix-v2(指 `protenix-v2` 模型)在抗体-抗原结构预测方面展现出明显提升,同时在与配体相关的合理性方面也有额外更新。与基线和早期 Protenix-v1 相比,Protenix-v2 展现出显著的提升趋势。在 DockQ > 0.23 阈值下,Protenix-v2 相比 Protenix-v1 在三个集合上实现了 9 到 13 个百分点的绝对成功率提升。值得注意的是,Protenix-v2 仅需 5 个种子即可超越 Protenix-v1 使用 1000 个种子的性能,表明其在效率上的明显提升。 Protenix-v2 model Metrics #### Protenix-v1 Protenix-v1(指 `protenix_base_default_v1.0.0` 模型)是首个在保持与 AlphaFold3 相同训练数据截止、模型规模和推理预算的前提下,在多样化基准集上超越 AlphaFold3 的完全开源模型。对于具有挑战性的目标,例如抗原-抗体复合物,通过推理时扩展——将采样预算从几个增加到数百个候选——可以进一步提升预测精度,从而实现一致的线性对数增益。 protenix-v1 model Metrics protenix-v1 model Metrics 2 有关每个数据集的详细基准指标,请参考 [docs/model_1.0.0_benchmark.md](docs/model_1.0.0_benchmark.md)。 ## 引用 Protenix 如果您在研究中使用 Protenix,请引用以下内容: ``` @article {Zhang2026.04.10.717613, author = {Zhang, Yuxuan and Gong, Chengyue and Sun, Jinyuan and Guan, Jiaqi and Ren, Milong and Xue, Song and Zhang, Hanyu and Ma, Wenzhi and Liu, Zhenyu and Chen, Xinshi and Xiao, Wenzhi}, title = {Protenix-v2: Broadening the Reach of Structure Prediction and Biomolecular Design}, elocation-id = {2026.04.10.717613}, year = {2026}, doi = {10.64898/2026.04.10.717613}, publisher = {Cold Spring Harbor Laboratory}, URL = {https://www.biorxiv.org/content/early/2026/04/11/2026.04.10.717613}, eprint = {https://www.biorxiv.org/content/early/2026/04/11/2026.04.10.717613.full.pdf}, journal = {bioRxiv} } @article {Zhang2026.02.05.703733, author = {Zhang, Yuxuan and Gong, Chengyue and Zhang, Hanyu and Ma, Wenzhi and Liu, Zhenyu and Chen, Xinshi and Guan, Jiaqi and Wang, Lan and Yang, Yanping and Xia, Yu and Xiao, Wenzhi}, title = {Protenix-v1: Toward High-Accuracy Open-Source Biomolecular Structure Prediction}, elocation-id = {2026.02.05.703733}, year = {2026}, doi = {10.64898/2026.02.05.703733}, publisher = {Cold Spring Harbor Laboratory}, URL = {https://www.biorxiv.org/content/early/2026/02/22/2026.02.05.703733.1}, eprint = {https://www.biorxiv.org/content/early/2026/02/22/2026.02.05.703733.1.full.pdf}, journal = {bioRxiv} } @article {2025.01.08.631967, author = {ByteDance AML AI4Science Team and Chen, Xinshi and Zhang, Yuxuan and Lu, Chan and Ma, Wenzhi and Guan, Jiaqi and Gong, Chengyue and Yang, Jincai and Zhang, Hanyu and Zhang, Ke and Wu, Shenghao and Zhou, Kuangqi and Yang, Yanping and Liu, Zhenyu and Wang, Lan and Shi, Bo and Shi, Shaochen and Xiao, Wenzhi}, title = {Protenix - Advancing Structure Prediction Through a Comprehensive AlphaFold3 Reproduction}, elocation-id = {2025.01.08.631967}, year = {2025}, doi = {10.1101/2025.01.08.631967}, publisher = {Cold Spring Harbor Laboratory}, URL = {https://www.biorxiv.org/content/early/2025/01/11/2025.01.08.631967}, eprint = {https://www.biorxiv.org/content/early/2025/01/11/2025.01.08.631967.full.pdf}, journal = {bioRxiv} } ``` ### 📚 引用相关研究 Protenix 建立在并受到多个有影响力项目的启发。如果您在研究中使用 Protenix,我们也鼓励在适当的情况下引用以下基础工作: ``` @article{abramson2024accurate, title={Accurate structure prediction of biomolecular interactions with AlphaFold 3}, author={Abramson, Josh and Adler, Jonas and Dunger, Jack and Evans, Richard and Green, Tim and Pritzel, Alexander and Ronneberger, Olaf and Willmore, Lindsay and Ballard, Andrew J and Bambrick, Joshua and others}, journal={Nature}, volume={630}, number={8016}, pages={493--500}, year={2024}, publisher={Nature Publishing Group UK London} } @article{ahdritz2024openfold, title={OpenFold: Retraining AlphaFold2 yields new insights into its learning mechanisms and capacity for generalization}, author={Ahdritz, Gustaf and Bouatta, Nazim and Floristean, Christina and Kadyan, Sachin and Xia, Qinghui and Gerecke, William and O’Donnell, Timothy J and Berenberg, Daniel and Fisk, Ian and Zanichelli, Niccol{\`o} and others}, journal={Nature Methods}, volume={21}, number={8}, pages={1514--1524}, year={2024}, publisher={Nature Publishing Group US New York} } @article{mirdita2022colabfold, title={ColabFold: making protein folding accessible to all}, author={Mirdita, Milot and Sch{\"u}tze, Konstantin and Moriwaki, Yoshitaka and Heo, Lim and Ovchinnikov, Sergey and Steinegger, Martin}, journal={Nature methods}, volume={19}, number={6}, pages={679--682}, year={2022}, publisher={Nature Publishing Group US New York} } ``` ## 贡献给 Protenix 我们欢迎社区贡献,以帮助改进 Protenix! 📄 请查看 [贡献指南](CONTRIBUTING.md) 以开始。 ✅ 代码质量: 我们使用 `pre-commit` 钩子来确保一致性和代码质量。请在提交前安装它们: ``` pip install pre-commit pre-commit install ``` 🐞 发现错误或有功能请求?[提交问题](https://github.com/bytedance/Protenix/issues)。 ## 感谢 层归一化算子的实现参考了 [OneFlow](https://github.com/Oneflow-Inc/oneflow) 和 [FastFold](https://github.com/hpcaitech/FastFold)。 我们还从 [OpenFold](https://github.com/aqlaboratory/openfold) 借鉴了多个 [模块](protenix/openfold_local/) 的实现,除了 [`LayerNorm`](protenix/model/layer_norm/) 是独立实现的。 ## 行为准则 我们致力于营造一个欢迎和包容的环境。 请查阅我们的 [行为准则](CODE_OF_CONDUCT.md) 以了解如何尊重地参与。 ## 安全性 如果您发现此项目中可能存在安全漏洞,或认为您可能 发现了安全漏洞,请通过我们的 [安全中心](https://security.bytedance.com/src) 或 [漏洞报告电子邮件](sec@bytedance.com 通知字节跳动安全。 **请勿** 在 GitHub 上公开创建问题。 ## 许可证 Protenix 项目(包括代码和模型参数)在 [Apache 2.0 许可证](./LICENSE) 下发布。它免费用于学术研究和商业用途。 ## 联系我们 我们欢迎咨询和合作机会,用于我们模型的先进应用,例如开发新功能、为特定用例微调模型等。请随时通过 ai4s-bio@bytedance.com 与我们联系。
标签:AI for Science, AlphaFold, Apex, Protenix-Dock, PXDesign, PXMeter, 凭据扫描, 分子建模, 基准数据集, 开源模型, 抗体抗原预测, 机器学习, 模型评估, 深度学习, 生物信息学, 生物分子结构预测, 结构生物学, 结构预测, 蛋白设计, 蛋白质结构预测, 蛋白质设计, 计算生物学, 逆向工具, 高准确性预测