pandas-dev/pandas

GitHub: pandas-dev/pandas

Pandas 是基于 Python 的强大数据分析库,提供带标签的数据结构及统计功能,旨在让「关系型」或「标签型」数据的处理变得简单直观。

Stars: 48492 | Forks: 19867

Pandas Logo # pandas:强大的 Python 数据分析工具包 | | | | --- | --- | | 测试 | [![CI - Test](https://static.pigsec.cn/wp-content/uploads/repos/2026/04/57fef03807155225.svg)](https://github.com/pandas-dev/pandas/actions/workflows/unit-tests.yml) [![Coverage](https://codecov.io/github/pandas-dev/pandas/coverage.svg?branch=main)](https://codecov.io/gh/pandas-dev/pandas) | | 软件包 | [![PyPI Latest Release](https://img.shields.io/pypi/v/pandas.svg)](https://pypi.org/project/pandas/) [![PyPI Downloads](https://img.shields.io/pypi/dm/pandas.svg?label=PyPI%20downloads)](https://pypi.org/project/pandas/) [![Conda Latest Release](https://anaconda.org/conda-forge/pandas/badges/version.svg)](https://anaconda.org/conda-forge/pandas) [![Conda Downloads](https://img.shields.io/conda/dn/conda-forge/pandas.svg?label=Conda%20downloads)](https://anaconda.org/conda-forge/pandas) | | 元信息 | [![Powered by NumFOCUS](https://img.shields.io/badge/powered%20by-NumFOCUS-orange.svg?style=flat&colorA=E1523D&colorB=007D8A)](https://numfocus.org) [![DOI](https://zenodo.org/badge/DOI/10.5281/zenodo.3509134.svg)](https://doi.org/10.5281/zenodo.3509134) [![License - BSD 3-Clause](https://img.shields.io/pypi/l/pandas.svg)](https://github.com/pandas-dev/pandas/blob/main/LICENSE) [![Slack](https://img.shields.io/badge/join_Slack-information-brightgreen.svg?logo=slack)](https://pandas.pydata.org/docs/dev/development/community.html?highlight=slack#community-slack) [![LFX Health Score](https://insights.linuxfoundation.org/api/badge/health-score?project=pandas-dev-pandas)](https://insights.linuxfoundation.org/project/pandas-dev-pandas) | ## 简介 **pandas** 是一个 Python 包,它提供了快速、灵活且富有表现力的数据结构,旨在使处理“关系型”或“标签型”数据变得既简单又直观。它的目标是成为在 Python 中进行实用、**现实世界**数据分析的基础高层构建块。此外,它的更宏大目标是成为**任何语言中可用的最强大、最灵活的开源数据分析/操作工具**。它已经很好地朝着这个目标迈进。 ## 目录 - [主要功能](#main-features) - [获取方式](#where-to-get-it) - [依赖项](#dependencies) - [从源码安装](#installation-from-sources) - [许可证](#license) - [文档](#documentation) - [背景](#background) - [获取帮助](#getting-help) - [讨论与开发](#discussion-and-development) - [为 pandas 做贡献](#contributing-to-pandas) ## 主要功能 以下是 pandas 擅长的部分功能: - 轻松处理浮点以及非浮点数据中的 [**缺失数据**][missing-data](表示为 `NaN`、`NA` 或 `NaT`) - 大小可变性:可以从 DataFrame 和更高维对象中 [**插入和删除**][insertion-deletion] 列 - 自动和显式的 [**数据对齐**][alignment]:对象可以显式地对齐到一组标签,或者用户可以简单地忽略标签,让 `Series`、`DataFrame` 等在计算中自动为你对齐数据 - 强大、灵活的 [**分组**][groupby] 功能,可对数据集执行拆分-应用-合并操作,用于聚合和转换数据 - 轻松将其他 Python 和 NumPy 数据结构中参差不齐、索引不同的数据 [**转换**][conversion] 为 DataFrame 对象 - 对大型数据集进行基于标签的智能 [**切片**][slicing]、[**花式索引**][fancy-indexing] 和 [**子集选择**][subsetting] - 直观的 [**合并**][merging] 和 [**连接**][joining] 数据集 - 灵活的 [**重塑**][reshape] 和 [**透视**][pivot-table] 数据集 - 轴的 [**分层**][mi] 标记(每个刻度可以有多个标签) - 强大的 I/O 工具,用于从 [**平面文件**][flat-files](CSV 和分隔符文件)、[**Excel 文件**][excel]、[**数据库**][db] 加载数据,以及从超快速的 [**HDF5 格式**][hdfstore] 保存/加载数据 - [**时间序列**][timeseries] 特定功能:日期范围生成和频率转换、移动窗口统计、日期偏移和滞后 ## 获取方式 源代码目前托管在 GitHub 上: https://github.com/pandas-dev/pandas 最新发布版本的二进制安装程序可在 [Python 软件包索引 (PyPI)](https://pypi.org/project/pandas) 和 [Conda](https://anaconda.org/conda-forge/pandas) 上获取。 ``` # conda conda install -c conda-forge pandas ``` ``` # 或 PyPI pip install pandas ``` pandas 在每个版本之间的变更列表可以在 [这里](https://pandas.pydata.org/pandas-docs/stable/whatsnew/index.html) 找到。有关完整详细信息,请参阅 https://github.com/pandas-dev/pandas 上的提交日志。 ## 依赖项 - [NumPy - 增加对大型多维数组、矩阵以及用于操作这些数组的高级数学函数的支持](https://www.numpy.org) - [python-dateutil - 为标准 datetime 模块提供强大的扩展](https://dateutil.readthedocs.io/en/stable/index.html) - [tzdata - 提供 IANA 时区数据库](https://tzdata.readthedocs.io/en/latest/)(仅在 Windows/Emscripten 上需要) 有关必需、推荐和可选依赖项的最低支持版本,请参阅 [完整安装说明](https://pandas.pydata.org/pandas-docs/stable/install.html#dependencies)。 ## 从源码安装 要从源码安装 pandas,除了上述常规依赖项外,你还需要 [Cython](https://cython.org/)。Cython 可以从 PyPI 安装: ``` pip install cython ``` 在 `pandas` 目录中(即克隆 git 仓库后找到此文件的同一目录),执行: ``` pip install . ``` 或者以 [开发模式](https://pip.pypa.io/en/latest/cli/pip_install/#install-editable) 安装: ``` python -m pip install -ve . --no-build-isolation --config-settings editable-verbose=true ``` 有关 [从源码安装](https://pandas.pydata.org/docs/dev/development/contributing_environment.html) 的完整说明,请参阅。 ## 许可证 [BSD 3](LICENSE) ## 文档 官方文档托管在 [PyData.org](https://pandas.pydata.org/pandas-docs/stable/) 上。 ## 背景 关于 ``pandas`` 的工作始于 2008 年的 [AQR](https://www.aqr.com/)(一家量化对冲基金),此后一直处于积极开发中。 ## 获取帮助 对于使用问题,最好的去处是 [Stack Overflow](https://stackoverflow.com/questions/tagged/pandas)。 此外,一般性问题和讨论也可以在 [pydata 邮件列表](https://groups.google.com/forum/?fromgroups#!forum/pydata) 中进行。 ## 讨论与开发 大多数开发讨论都在此仓库的 GitHub 上进行,通过 [GitHub issue 追踪器](https://github.com/pandas-dev/pandas/issues)。 此外,[pandas-dev 邮件列表](https://mail.python.org/mailman/listinfo/pandas-dev) 也可用于专门讨论或设计问题,并且有一个 [Slack 频道](https://pandas.pydata.org/docs/dev/development/community.html?highlight=slack#community-slack) 可用于快速解答开发相关问题。 还有定期的面向社区开放的 [社区会议](https://pandas.pydata.org/docs/dev/development/community.html#community-meeting) 以及每月的 [新贡献者会议]( [返回顶部](#table-of-contents)
标签:Apex, BSD, CSV, DataFrame, ETL, Excel, JavaCC, NumPy, pandas, Python, Series, SQL, 代码示例, 大数据, 开源库, 搜索引擎爬虫, 数据分析, 数据导入, 数据导出, 数据挖掘, 数据操作, 数据清洗, 数据科学, 数据结构, 无后门, 时间序列, 机器学习, 目录扫描, 科学计算, 系统审计, 统计函数, 统计分析, 表格数据, 资源验证, 逆向工具