pandas-dev/pandas
GitHub: pandas-dev/pandas
Pandas 是基于 Python 的强大数据分析库,提供带标签的数据结构及统计功能,旨在让「关系型」或「标签型」数据的处理变得简单直观。
Stars: 48492 | Forks: 19867
# pandas:强大的 Python 数据分析工具包
| | |
| --- | --- |
| 测试 | [](https://github.com/pandas-dev/pandas/actions/workflows/unit-tests.yml) [](https://codecov.io/gh/pandas-dev/pandas) |
| 软件包 | [](https://pypi.org/project/pandas/) [](https://pypi.org/project/pandas/) [](https://anaconda.org/conda-forge/pandas) [](https://anaconda.org/conda-forge/pandas) |
| 元信息 | [](https://numfocus.org) [](https://doi.org/10.5281/zenodo.3509134) [](https://github.com/pandas-dev/pandas/blob/main/LICENSE) [](https://pandas.pydata.org/docs/dev/development/community.html?highlight=slack#community-slack) [](https://insights.linuxfoundation.org/project/pandas-dev-pandas) |
## 简介
**pandas** 是一个 Python 包,它提供了快速、灵活且富有表现力的数据结构,旨在使处理“关系型”或“标签型”数据变得既简单又直观。它的目标是成为在 Python 中进行实用、**现实世界**数据分析的基础高层构建块。此外,它的更宏大目标是成为**任何语言中可用的最强大、最灵活的开源数据分析/操作工具**。它已经很好地朝着这个目标迈进。
## 目录
- [主要功能](#main-features)
- [获取方式](#where-to-get-it)
- [依赖项](#dependencies)
- [从源码安装](#installation-from-sources)
- [许可证](#license)
- [文档](#documentation)
- [背景](#background)
- [获取帮助](#getting-help)
- [讨论与开发](#discussion-and-development)
- [为 pandas 做贡献](#contributing-to-pandas)
## 主要功能
以下是 pandas 擅长的部分功能:
- 轻松处理浮点以及非浮点数据中的 [**缺失数据**][missing-data](表示为
`NaN`、`NA` 或 `NaT`)
- 大小可变性:可以从 DataFrame 和更高维对象中 [**插入和删除**][insertion-deletion] 列
- 自动和显式的 [**数据对齐**][alignment]:对象可以显式地对齐到一组标签,或者用户可以简单地忽略标签,让 `Series`、`DataFrame` 等在计算中自动为你对齐数据
- 强大、灵活的 [**分组**][groupby] 功能,可对数据集执行拆分-应用-合并操作,用于聚合和转换数据
- 轻松将其他 Python 和 NumPy 数据结构中参差不齐、索引不同的数据 [**转换**][conversion] 为 DataFrame 对象
- 对大型数据集进行基于标签的智能 [**切片**][slicing]、[**花式索引**][fancy-indexing] 和 [**子集选择**][subsetting]
- 直观的 [**合并**][merging] 和 [**连接**][joining] 数据集
- 灵活的 [**重塑**][reshape] 和 [**透视**][pivot-table] 数据集
- 轴的 [**分层**][mi] 标记(每个刻度可以有多个标签)
- 强大的 I/O 工具,用于从 [**平面文件**][flat-files](CSV 和分隔符文件)、[**Excel 文件**][excel]、[**数据库**][db] 加载数据,以及从超快速的 [**HDF5 格式**][hdfstore] 保存/加载数据
- [**时间序列**][timeseries] 特定功能:日期范围生成和频率转换、移动窗口统计、日期偏移和滞后
## 获取方式
源代码目前托管在 GitHub 上:
https://github.com/pandas-dev/pandas
最新发布版本的二进制安装程序可在 [Python 软件包索引
(PyPI)](https://pypi.org/project/pandas) 和 [Conda](https://anaconda.org/conda-forge/pandas) 上获取。
```
# conda
conda install -c conda-forge pandas
```
```
# 或 PyPI
pip install pandas
```
pandas 在每个版本之间的变更列表可以在 [这里](https://pandas.pydata.org/pandas-docs/stable/whatsnew/index.html) 找到。有关完整详细信息,请参阅 https://github.com/pandas-dev/pandas 上的提交日志。
## 依赖项
- [NumPy - 增加对大型多维数组、矩阵以及用于操作这些数组的高级数学函数的支持](https://www.numpy.org)
- [python-dateutil - 为标准 datetime 模块提供强大的扩展](https://dateutil.readthedocs.io/en/stable/index.html)
- [tzdata - 提供 IANA 时区数据库](https://tzdata.readthedocs.io/en/latest/)(仅在 Windows/Emscripten 上需要)
有关必需、推荐和可选依赖项的最低支持版本,请参阅 [完整安装说明](https://pandas.pydata.org/pandas-docs/stable/install.html#dependencies)。
## 从源码安装
要从源码安装 pandas,除了上述常规依赖项外,你还需要 [Cython](https://cython.org/)。Cython 可以从 PyPI 安装:
```
pip install cython
```
在 `pandas` 目录中(即克隆 git 仓库后找到此文件的同一目录),执行:
```
pip install .
```
或者以 [开发模式](https://pip.pypa.io/en/latest/cli/pip_install/#install-editable) 安装:
```
python -m pip install -ve . --no-build-isolation --config-settings editable-verbose=true
```
有关 [从源码安装](https://pandas.pydata.org/docs/dev/development/contributing_environment.html) 的完整说明,请参阅。
## 许可证
[BSD 3](LICENSE)
## 文档
官方文档托管在 [PyData.org](https://pandas.pydata.org/pandas-docs/stable/) 上。
## 背景
关于 ``pandas`` 的工作始于 2008 年的 [AQR](https://www.aqr.com/)(一家量化对冲基金),此后一直处于积极开发中。
## 获取帮助
对于使用问题,最好的去处是 [Stack Overflow](https://stackoverflow.com/questions/tagged/pandas)。
此外,一般性问题和讨论也可以在 [pydata 邮件列表](https://groups.google.com/forum/?fromgroups#!forum/pydata) 中进行。
## 讨论与开发
大多数开发讨论都在此仓库的 GitHub 上进行,通过 [GitHub issue 追踪器](https://github.com/pandas-dev/pandas/issues)。
此外,[pandas-dev 邮件列表](https://mail.python.org/mailman/listinfo/pandas-dev) 也可用于专门讨论或设计问题,并且有一个 [Slack 频道](https://pandas.pydata.org/docs/dev/development/community.html?highlight=slack#community-slack) 可用于快速解答开发相关问题。
还有定期的面向社区开放的 [社区会议](https://pandas.pydata.org/docs/dev/development/community.html#community-meeting) 以及每月的 [新贡献者会议](
[返回顶部](#table-of-contents)
标签:Apex, BSD, CSV, DataFrame, ETL, Excel, JavaCC, NumPy, pandas, Python, Series, SQL, 代码示例, 大数据, 开源库, 搜索引擎爬虫, 数据分析, 数据导入, 数据导出, 数据挖掘, 数据操作, 数据清洗, 数据科学, 数据结构, 无后门, 时间序列, 机器学习, 目录扫描, 科学计算, 系统审计, 统计函数, 统计分析, 表格数据, 资源验证, 逆向工具