Data-Centric-AI-Community/ydata-synthetic

GitHub: Data-Centric-AI-Community/ydata-synthetic

基于多种 GAN 架构和高斯混合模型生成表格与时间序列合成数据的 Python 库,解决数据隐私合规与机器学习数据需求之间的矛盾。

Stars: 1613 | Forks: 257

![](https://img.shields.io/github/workflow/status/ydataai/ydata-synthetic/prerelease) ![](https://img.shields.io/pypi/status/ydata-synthetic) [![](https://pepy.tech/badge/ydata-synthetic)](https://pypi.org/project/ydata-synthetic/) ![](https://img.shields.io/badge/python-3.9%20%7C%203.10-blue) [![](https://img.shields.io/pypi/v/ydata-synthetic)](https://pypi.org/project/ydata-synthetic/) ![](https://img.shields.io/github/license/ydataai/ydata-synthetic)

YData Synthetic Logo

加入我们的 [![Discord](https://img.shields.io/badge/Discord-7289DA?style=for-the-badge&logo=discord&logoColor=white)](https://tiny.ydata.ai/dcai-ydata-synthetic) # YData Synthetic 一个利用最先进的生成模型来生成合成表格和时间序列数据的包。 ## 🎊 令人兴奋的功能: ## 合成数据 ### 什么是合成数据? 合成数据是人工生成的数据,并非从现实世界的事件中收集。它复制了真实数据的统计成分,但不包含任何可识别的信息,从而确保了个人的隐私。 ### 为什么使用合成数据? 合成数据可用于许多应用: - 数据共享和机器学习开发的隐私合规 - 消除偏差 - 平衡数据集 - 增强数据集 # ydata-synthetic 本仓库包含与合成数据的架构和模型相关的资料,从生成对抗网络(GANs)到高斯混合模型。 该仓库包含一个用于合成数据生成的完整生态系统,其中包括用于生成合成结构化数据和时间序列的不同模型。 所有的深度学习模型都是利用 Tensorflow 2.0 实现的。 其中包含几个示例 Jupyter Notebooks 和 Python 脚本,以展示如何使用不同的架构。 你准备好了解更多关于合成数据以及合成数据生成的最佳实践了吗? ## 快速入门 源代码目前托管在 GitHub 上:https://github.com/ydataai/ydata-synthetic 最新版本的二进制安装程序可在 [Python Package Index (PyPI)](https://pypi.org/project/ydata-synthetic/) 获取。 ``` pip install ydata-synthetic ``` ### 合成数据生成的 UI 指南 YData synthetic 现在提供了一个 UI 界面,可引导您完成生成结构化表格数据的步骤和输入。 该 streamlit 应用从 *v1.0.0* 版本开始提供,并支持以下流程: - 训练 synthesizer 模型 - 生成和分析合成数据样本 #### 安装 ``` pip install ydata-synthetic[streamlit] ``` #### 快速入门 在 python 文件中使用下面的代码片段(不支持 Jupyter Notebooks): ``` from ydata_synthetic import streamlit_app streamlit_app.run() ``` 或者使用 [examples 文件夹](https://github.com/ydataai/ydata-synthetic/tree/master/examples/streamlit_app.py) 中的 streamlit_app.py 文件。 ``` python -m streamlit_app ``` 支持以下模型: - CGAN - WGAN - WGANGP - DRAGAN - CRAMER - CTGAN [![观看视频](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/3dca41a5e3234254.png)](https://youtu.be/ep0PhwsFx0A) ### 示例 在这里您可以找到使用该包和模型合成表格数据的示例。 - 成人普查收入数据集上的快速表格数据合成 [![在 Colab 中打开](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ydataai/ydata-synthetic/blob/master/examples/regular/models/Fast_Adult_Census_Income_Data.ipynb) - 使用 CTGAN 在成人普查收入数据集上生成表格合成数据 [![在 Colab 中打开](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ydataai/ydata-synthetic/blob/master/examples/regular/models/CTGAN_Adult_Census_Income_Data.ipynb) - 使用 TimeGAN 在股票数据集上生成时间序列合成数据 [![在 Colab 中打开](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ydataai/ydata-synthetic/blob/master/examples/timeseries/TimeGAN_Synthetic_stock_data.ipynb) - 使用 DoppelGANger 在 FCC MBA 数据集上生成时间序列合成数据 [![在 Colab 中打开](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ydataai/ydata-synthetic/blob/master/examples/timeseries/DoppelGANger_FCC_MBA_Dataset.ipynb) - 更多示例会持续添加,可以在 `/examples` 目录中找到。 ### 供您实验的数据集 这里有一些示例数据集供您尝试使用 synthesizers: #### 表格数据集 - [成人普查收入](https://www.kaggle.com/datasets/uciml/adult-census-income) - [信用卡欺诈](https://www.kaggle.com/mlg-ulb/creditcardfraud) - [心血管疾病数据集](https://www.kaggle.com/datasets/sulianova/cardiovascular-disease-dataset) #### 序列数据集 - [股票数据](https://github.com/ydataai/ydata-synthetic/tree/master/data) - [FCC MBA 数据](https://github.com/ydataai/ydata-synthetic/tree/master/data) ## 项目资源 在这个仓库中,您可以找到几种用于创建 synthesizers 的 GAN 架构: ### 表格数据 - [GAN](https://arxiv.org/abs/1406.2661) - [CGAN (Conditional GAN)](https://arxiv.org/abs/1411.1784) - [WGAN (Wasserstein GAN)](https://arxiv.org/abs/1701.07875) - [WGAN-GP (Wassertein GAN with Gradient Penalty)](https://arxiv.org/abs/1704.00028) - [DRAGAN (On Convergence and stability of GANS)](https://arxiv.org/pdf/1705.07215.pdf) - [Cramer GAN (The Cramer Distance as a Solution to Biased Wasserstein Gradients)](https://arxiv.org/abs/1705.10743) - [CWGAN-GP (Conditional Wassertein GAN with Gradient Penalty)](https://cameronfabbri.github.io/papers/conditionalWGAN.pdf) - [CTGAN (Conditional Tabular GAN)](https://arxiv.org/pdf/1907.00503.pdf) - [高斯混合](https://towardsdatascience.com/gaussian-mixture-models-explained-6986aaf5a95) ### 序列数据 - [TimeGAN](https://papers.nips.cc/paper/2019/file/c9efe5f26cd17ba6216bbe2a7d26d490-Paper.pdf) - [DoppelGANger](https://dl.acm.org/doi/pdf/10.1145/3419394.3423643) ## 支持 如需使用本库的支持,请加入我们的 Discord 服务器。我们的 Discord 社区非常友好,非常乐意迅速回答有关该库使用和开发的问题。[点击此处加入我们的 Discord 社区!](https://tiny.ydata.ai/dcai-ydata-synthetic) ## 常见问题解答 有疑问?请查看关于 `ydata-synthetic` 的[常见问题解答](https://ydata.ai/resources/10-most-asked-questions-on-ydata-synthetic)。如果您觉得缺少了什么,欢迎[与我们预约一次非正式的聊天](https://meetings.hubspot.com/fabiana-clemente)。 ## 许可证 [MIT 许可证](https://github.com/ydataai/ydata-synthetic/blob/master/LICENSE)
标签:Apex, GAN, Kubernetes, Python, TensorFlow, YData, 人工智能, 偏差消除, 合成数据, 开源库, 搜索引擎爬虫, 数据增强, 数据生成, 数据科学, 数据脱敏, 数据隐私, 无后门, 时间序列, 机器学习, 样本平衡, 深度学习, 生成对抗网络, 用户模式Hook绕过, 表格数据, 资源验证, 逆向工具, 隐私合规, 高斯混合模型