Eventual-Inc/Daft
GitHub: Eventual-Inc/Daft
面向 AI 和多模态工作负载的高性能分布式数据引擎,支持图像、音频、视频与结构化数据的统一处理。
Stars: 5371 | Forks: 435
|Banner|
|CI| |PyPI| |Latest Tag| |Coverage| |Slack|
`网站 `_ • `文档 `_ • `安装 `_ • `Daft 快速入门 `_ • `社区与支持 `_
# Daft:面向 AI 和多模态工作负载的高性能数据引擎
|TrendShift|
`Daft `_ 是一个面向 AI 和多模态工作负载的高性能数据引擎。可以处理任意规模的图像、音频、视频和结构化数据。
* **原生多模态处理:** 在单一框架中处理图像、音频、视频和嵌入,以及结构化数据
* **内置 AI 操作:** 使用 OpenAI、Transformers 或自定义模型,大规模运行 LLM 提示、生成嵌入和对数据进行分类
* **Python 原生,Rust 驱动:** 核心采用 Python,底层由 Rust 提供极速性能,跳过 JVM 的复杂性
* **无缝扩展:** 从本地开始,扩展到 `Ray `_、`Kubernetes `_ 上的分布式集群
* **通用连接性:** 访问任何地方的数据(S3、GCS、Iceberg、Delta Lake、Hugging Face、Unity Catalog)
* **开箱即用的可靠性:** 智能内存管理和合理的默认配置消除了配置烦恼
## 开始使用
## 安装
使用 ``pip install daft`` 安装 Daft。需要 Python 3.10 或更高版本。
有关更高级的安装(例如从源代码安装或安装 Ray 和 AWS 实用工具等额外依赖项),请参阅我们的 `安装指南 `_
## 快速入门
通过我们的 `快速入门 `_ 指南,在几分钟内上手 —— 加载真实的电子商务数据集,处理产品图像,并大规模运行 AI 推理。
## 更多资源
* `示例 `_ - 查看涉及文本、图像、音频等用例的 Daft 实战演示
* `用户指南 `_ - 深入了解 Daft 中的每个主题
* `API 参考 `_ - Daft 公共类/函数的 API 参考
## 基准测试
|Benchmark Image|
要查看完整的基准测试、详细设置和日志,请查看我们的 `基准测试页面 `_。
## 贡献
我们 ❤️ 开发者!要开始为 Daft 做贡献,请阅读 `CONTRIBUTING.md `_。本文档描述了开发 Daft 的开发生命周期和工具链。它还详细介绍了如何向核心引擎添加新功能并通过 Python API 将其公开。
这里列出了一些 `适合新手的 issue `_,帮助你熟悉 Daft。在 issue 中留言认领,并随时提问!
## 遥测
为了帮助改进 Daft,我们通过 Scarf (https://scarf.sh) 收集非身份识别数据。
要禁用此行为,请设置环境变量 ``DO_NOT_TRACK=true``。
我们收集的数据是:
1. **非身份识别:** 事件由导入 Daft 时生成的会话 ID 作为键
2. **仅元数据:** 我们不收集任何用户的专有代码或数据
3. **仅用于开发:** 我们不买卖任何用户数据
有关更多详细信息,请参阅我们的 `文档 `_。
.. image:: https://static.scarf.sh/a.png?x-pxid=31f8d5ba-7e09-4d75-8895-5252bbf06cf6
## 相关项目
+---------------------------------------------------+-----------------+---------------+-------------+-----------------+-----------------------------+-------------+
| 引擎 | 查询优化器 | 多模态 | 分布式 | Arrow 支持 | 向量化执行引擎 | 外存处理 |
+===================================================+=================+===============+=============+=================+=============================+=============+
| Daft | 是 | 是 | 是 | 是 | 是 | 是 |
+---------------------------------------------------+-----------------+---------------+-------------+-----------------+-----------------------------+-------------+
| `Pandas `_ | 否 | Python 对象 | 否 | 可选 >= 2.0 | 部分 | 否 |
+---------------------------------------------------+-----------------+---------------+-------------+-----------------+-----------------------------+-------------+
| `Polars `_ | 是 | Python 对象 | 否 | 是 | 是 | 是 |
+---------------------------------------------------+-----------------+---------------+-------------+-----------------+-----------------------------+-------------+
| `Modin `_ | 是 | Python 对象 | 是 | 否 | 部分 | 是 |
+---------------------------------------------------+-----------------+---------------+-------------+-----------------+-----------------------------+-------------+
| `Ray Data `_ | 否 | 是 | 是 | 是 | 部分 | 是 |
+---------------------------------------------------+-----------------+---------------+-------------+-----------------+-----------------------------+-------------+
| `PySpark `_ | 是 | 否 | 是 | Pandas UDF/IO | Pandas UDF | 是 |
+---------------------------------------------------+-----------------+---------------+-------------+-----------------+-----------------------------+-------------+
| `Dask DF `_ | 否 | Python 对象 | 是 | 否 | 部分 | 是 |
+---------------------------------------------------+-----------------+---------------+-------------+-----------------+-----------------------------+-------------+
## 许可证
Daft 采用 Apache 2.0 许可证 - 请参阅 LICENSE 文件。
.. |Quickstart Image| image:: https://github.com/Eventual-Inc/Daft/assets/17691182/dea2f515-9739-4f3e-ac58-cd96d51e44a8
:alt: 用于从 AWS S3 加载图像文件夹并创建缩略图的 Dataframe 代码
:height: 256
.. |Benchmark Image| image:: https://raw.githubusercontent.com/Eventual-Inc/Daft/refs/heads/main/assets/benchmark.png
:alt: AI 基准测试
.. |Banner| image:: https://daft.ai/images/diagram.png
:target: https://www.daft.ai
:alt: Daft dataframes 可以将任何数据(如 PDF 文档、图像、protobufs、csv、parquet 和音频文件)加载到表 dataframe 结构中,以便轻松查询
.. |CI| image:: https://github.com/Eventual-Inc/Daft/actions/workflows/pr-test-suite.yml/badge.svg
:target: https://github.com/Eventual-Inc/Daft/actions/workflows/pr-test-suite.yml?query=branch:main
:alt: GitHub Actions 测试
.. |PyPI| image:: https://img.shields.io/pypi/v/daft.svg?label=pip&logo=PyPI&logoColor=white
:target: https://pypi.org/project/daft
:alt: PyPI
.. |Latest Tag| image:: https://img.shields.io/github/v/tag/Eventual-Inc/Daft?label=latest&logo=GitHub
:target: https://github.com/Eventual-Inc/Daft/tags
:alt: 最新标签
.. |Coverage| image:: https://codecov.io/gh/Eventual-Inc/Daft/branch/main/graph/badge.svg?token=J430QVFE89
:target: https://codecov.io/gh/Eventual-Inc/Daft
:alt: 覆盖率
.. |Slack| image:: https://img.shields.io/badge/slack-@distdata-purple.svg?logo=slack
:target: https://join.slack.com/t/dist-data/shared_invite/zt-3rh9jr9iv-tmmTNOlQpfvhEy2NTMWS_w
:alt: Slack 社区
.. |TrendShift| image:: https://trendshift.io/api/badge/repositories/8239
:target: https://trendshift.io/repositories/8239
:alt: Eventual-Inc/Daft | Trendshift
:width: 250px
:height: 55px
标签:Apache Iceberg, Apex, DataFrame, Delta Lake, DLL 劫持, ETL, Gradle集成, Hugging Face, JavaCC, PyPI, Python, Ray, Rust, S3, 人工智能, 分布式计算, 可视化界面, 向量嵌入, 图像处理, 多模态数据处理, 大语言模型, 子域名突变, 异常处理, 数据引擎, 数据湖, 数据预处理, 无后门, 机器学习, 用户模式Hook绕过, 网络流量审计, 视频处理, 逆向工具, 通知系统, 非结构化数据, 音频处理, 高性能计算