netdata/netdata

GitHub: netdata/netdata

一款开箱即用的实时基础设施监控平台,通过秒级指标采集和内置机器学习实现全栈可观测性。

Stars: 77930 | Forks: 6358

Netdata Netdata

X-Ray Vision for your infrastructure!

Every Metric, Every Second. No BS.


GitHub Stars
Live Demo Latest release Latest nightly build
Discourse topics GitHub Discussions
CII Best Practices Coverity Scan

User base Servers monitored Sessions served Docker Hub pulls

Visit our Home Page


菜单:**[关于我们](#who-we-are)** | **[核心功能](#key-features)** | **[快速开始](#getting-started)** | **[工作原理](#how-it-works)** | **[常见问题](#faq)** | **[文档](#book-documentation)** | **[社区](#tada-community)** | **[贡献](#pray-contribute)** | **[许可证](#scroll-license)** [![平台](https://img.shields.io/badge/Platforms-Linux%20%7C%20macOS%20%7C%20FreeBSD%20%7C%20Windows-blue)]() ## 关于我们 Netdata 是一个开源的实时基础设施监控平台。监控、检测并响应您的整个基础设施。 **核心优势:** * **即时洞察** – 使用 Netdata,您可以访问秒级指标和可视化图表。 * **零配置** – 您可以立即部署,无需复杂的设置。 * **ML 驱动** – 您可以检测异常、预测问题并自动化分析。 * **高效** – 您可以以最少的资源占用和最大的可扩展性进行监控。 * **安全且分布式** – 您可以将数据保留在本地,无需集中收集。 借助 Netdata,您可以获得实时的秒级更新。**一目了然的清晰洞察**,不再复杂。
每一位英雄都有伟大的起源故事。点击了解我们的故事。
2013年,在 Costa Tsaousis 担任 COO 的公司里,很大一部分基于云的交易悄无声息地失败了,严重影响了业务性能。 Costa 和他的团队尝试了当时所有可用的故障排查工具。没有一个能找出根本原因。正如 Costa 后来写道: “*我简直不敢相信,监控系统提供的指标竟然如此之少,分辨率如此之低,扩展性如此之差,而且运行成本如此之高。*” 在沮丧之余,他决定从零开始构建自己的监控工具。 这个决定带来了无数个深夜和周末的加班。它也引发了基础设施监控和故障排查在方法和成本上的根本性转变。
### 最节能的监控工具

Energy Efficiency Energy efficiency

根据[阿姆斯特丹大学的研究](https://www.ivanomalavolta.com/files/papers/ICSOC_2023.pdf),Netdata 是监控基于 Docker 的系统时最节能的工具。研究还表明,与其他监控解决方案相比,Netdata 在 CPU 使用率、RAM 使用率和执行时间方面表现优异。 ## 核心功能 | 功能 | 描述 | 独特之处 | |----------------------------|-------------------------------------------|----------------------------------------------------------| | **实时 (Real-Time)** | 秒级数据收集和处理 | 即时生效 – 点击即可立即查看结果 | | **零配置 (Zero-Configuration)** | 自动检测和发现 | 自动发现其运行节点上的所有内容 | | **ML 驱动 (ML-Powered)** | 无监督异常检测 | 在边缘为每个指标训练多个 ML 模型 | | **长期数据保留 (Long-Term Retention)** | 高性能存储 | 每个样本约 0.5 字节,并采用分层存储进行归档 | | **高级可视化 (Advanced Visualization)** | 丰富、交互式的仪表板 | 无需查询语言即可对数据进行切片和切块 | | **极致可扩展性 (Extreme Scalability)** | 原生水平扩展 | 父子集中化,支持每秒数百万个样本 | | **完整可见性 (Complete Visibility)** | 从基础设施到应用程序 | 简化运维并消除孤岛 | | **基于边缘 (Edge-Based)** | 在您的本地进行处理 | 分发代码而非集中数据 | ## Netdata 生态系统 这种三部分架构使您能够从单节点扩展到复杂的多云环境: | 组件 | 描述 | 许可证 | |-------------------|-------------------------------------------------------------------------------------------------------------------------------------------------------------|-------------------------------------------------| | **Netdata Agent** | • 核心监控引擎
• 处理收集、存储、ML、告警、导出
• 运行于服务器、云、K8s、IoT
• 对生产环境零影响 | [GPL v3+](https://www.gnu.org/licenses/gpl-3.0) | | **Netdata Cloud** | • 企业功能
• 用户管理、RBAC、水平扩展
• 集中告警
• 免费社区版
• 无指标存储集中化 | | | **Netdata UI** | • 仪表板和可视化
• 免费使用
• 包含在标准包中
• 通过 CDN 获取最新版本 | [NCUL1](https://app.netdata.cloud/LICENSE.txt) | ## 您可以监控的内容 借助 Netdata,您可以跨平台监控所有这些组件: | 组件 | Linux | FreeBSD | macOS | Windows | |------------------------------------------------------------------------------------------------------------:|:--------------------------------:|:-------:|:-----:|:-------------------------------------------------:| | **系统资源**
CPU、内存和系统共享资源
| 完整 | 是 | 是 | 是 | | **存储**
磁盘、挂载点、文件系统、RAID 阵列
| 完整 | 是 | 是 | 是 | | **网络**
网络接口、协议、防火墙等
| 完整 | 是 | 是 | 是 | | **硬件与传感器**
风扇、温度、控制器、GPU 等
| 完整 | 部分 | 部分 | 部分 | | **操作系统服务**
资源、性能和状态
| 是
`systemd`
| - | - | - | | **进程**
资源、性能、OOM 及更多
| 是 | 是 | 是 | 是 | | 系统和应用程序**日志** | 是
`systemd`-journal | - | - | 是
`Windows Event Log`, `ETW`
| | **网络连接**
每个 PID 的实时 TCP 和 UDP 套接字
| 是 | - | - | - | | **容器**
Docker/containerd、LXC/LXD、Kubernetes 等
| 是 | - | - | - | | **虚拟机 (VM)** (来自主机)
KVM、qemu、libvirt、Proxmox 等
| 是
`cgroups`
| - | - | 是
`Hyper-V`
| | **合成检查**
测试 API、TCP 端口、Ping、证书等
| 是 | 是 | 是 | 是 | | **打包应用程序**
nginx、apache、postgres、redis、mongodb、
以及数百个其他应用
| 是 | 是 | 是 | 是 | | **云服务商基础设施**
AWS、GCP、Azure 等
| 是 | 是 | 是 | 是 | | **自定义应用程序**
OpenMetrics、StatsD 以及即将支持的 OpenTelemetry
| 是 | 是 | 是 | 是 | 在 Linux 上,您可以持续监控所有内核功能和硬件传感器的错误,包括 Intel/AMD/Nvidia GPU、PCI AER、RAM EDAC、IPMI、S.M.A.R.T、Intel RAPL、NVMe、风扇、电源和电压读数。 ## 快速开始 您可以在所有主要操作系统上安装 Netdata。开始步骤: ### 1. 安装 Netdata 选择您的平台并按照安装指南操作: * [Linux 安装](https://learn.netdata.cloud/docs/installing/one-line-installer-for-all-linux-systems) * [macOS](https://learn.netdata.cloud/docs/installing/macos) * [FreeBSD](https://learn.netdata.cloud/docs/installing/freebsd) * [Windows](https://learn.netdata.cloud/docs/netdata-agent/installation/windows) * [Docker 指南](/packaging/docker/README.md) * [Kubernetes 设置](https://learn.netdata.cloud/docs/installation/install-on-specific-environments/kubernetes) ### 2. 配置收集器 Netdata 会自动发现大多数指标,但您也可以手动配置某些收集器: * [所有收集器](https://learn.netdata.cloud/docs/data-collection/) * [SNMP 监控](https://learn.netdata.cloud/docs/data-collection/monitor-anything/networking/snmp) ### 3. 配置告警 您可以使用数百个内置告警并集成以下工具: `email`、`Slack`、`Telegram`、`PagerDuty`、`Discord`、`Microsoft Teams` 等。 ### 4. 配置父节点 您可以使用 Netdata 父节点集中管理仪表板、告警和存储: * [流式传输参考](https://learn.netdata.cloud/docs/streaming/streaming-configuration-reference) ### 5. 连接到 Netdata Cloud [登录 Netdata Cloud](https://app.netdata.cloud/sign-in) 并连接您的节点以获得: * 随处访问 * 水平可扩展性和多节点仪表板 * 用于告警和数据收集的 UI 配置 * 基于角色的访问控制 * 提供免费层级 ## 在线演示站点

观看 Netdata 实战演示
FRANKFURT | NEWYORK | ATLANTA | SANFRANCISCO | TORONTO | SINGAPORE | BANGALORE
这些演示集群使用默认配置运行,并显示真实的监控数据。
选择离您最近的实例以获得最佳性能。

## 工作原理 借助 Netdata,您可以运行模块化流水线来进行指标收集、处理和可视化。 ``` flowchart TB A[Netdata Agent]:::mainNode A1(Collect):::green --> A A2(Store):::green --> A A3(Learn):::green --> A A4(Detect):::green --> A A5(Check):::green --> A A6(Stream):::green --> A A7(Archive):::green --> A A8(Query):::green --> A A9(Score):::green --> A classDef green fill:#bbf3bb,stroke:#333,stroke-width:1px,color:#000 classDef mainNode fill:#f0f0f0,stroke:#333,stroke-width:1px,color:#333 ``` 通过每个 Agent,您可以: 1. **收集** – 从系统、容器、应用程序、日志、API 和合成检查中收集指标。 2. **存储** – 将指标保存到高效、分层的时间序列数据库中。 3. **学习** – 利用近期行为为每个指标训练 ML 模型。 4. **检测** – 使用训练好的 ML 模型识别异常。 5. **检查** – 根据预设或自定义告警规则评估指标。 6. **流式传输** – 实时将指标发送到 Netdata 父节点。 7. **归档** – 将指标导出到 Prometheus、InfluxDB、OpenTSDB、Graphite 等。 8. **查询** – 通过 API 访问指标以供仪表板或第三方工具使用。 9. **评分** – 使用评分引擎查找指标中的模式和关联性。 ## Agent 能力 使用 Netdata Agent,您可以开箱即用地使用这些核心能力: | 能力 | 描述 | |------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------| | **全面收集** | • 800+ 集成
• 系统、容器、VM、硬件传感器
• OpenMetrics、StatsD 和日志
• 即将支持 OpenTelemetry | | **性能与精度** | • 秒级收集
• 具有 1 秒延迟的实时可视化
• 高分辨率指标 | | **边缘 ML** | • 在边缘训练的 ML 模型
• 每个指标的自动异常检测
• 基于历史行为的模式识别 | | **高级日志管理** | • 直接集成 systemd-journald 和 Windows Event Log
• 在边缘处理日志
• 丰富的日志可视化 | | **可观测性流水线** | • 父子关系
• 灵活的集中化
• 多级复制和保留 | | **自动化可视化** | • NIDL 数据模型
• 自动生成的仪表板
• 无需查询语言 | | **智能告警** | • 预配置的告警
• 多种通知方式
• 主动检测 | | **低维护** | • 自动检测
• 零接触 ML
• 易于扩展
• 对 CI/CD 友好 | | **开放与可扩展** | • 模块化架构
• 易于定制
• 与现有工具集成 | ## CNCF 成员

CNCF Logo
Netdata actively supports and is a member of the Cloud Native Computing Foundation (CNCF).
It is one of the most starred projects in the CNCF landscape.

## 常见问题
Netdata 安全吗?
是的。Netdata 遵循 [OpenSSF 最佳实践](),具有安全优先的设计,并由社区定期审计。 * [安全设计](https://learn.netdata.cloud/docs/security-and-privacy-design) * [安全策略和公告](https://github.com/netdata/netdata/security)
Netdata 会占用大量资源吗?
不会。即使启用了 ML 和秒级指标,Netdata 占用的资源也非常少。 * 在生产系统上默认占用约 5% CPU 和 150MiB RAM * 当禁用 ML 和告警并使用临时存储时,占用 <1% CPU 和约 100MiB RAM * 父节点在配备适当硬件的情况下可扩展至每秒处理数百万个指标
数据保留时间有多长?
只要您的磁盘允许。 使用 Netdata,您可以采用分层保留策略: * Tier 0:秒级分辨率 * Tier 1:分钟级分辨率 * Tier 2:小时级分辨率 系统会根据缩放级别自动查询这些数据。
Netdata 可以扩展到多台服务器吗?
是的。使用 Netdata,您可以: * 使用多个 Agent 进行水平扩展 * 使用强大的父节点进行垂直扩展 * 通过 Netdata Cloud 实现无限扩展
磁盘 I/O 是一个令人担忧的问题吗?
不是。Netdata 最大限度地减少了磁盘使用: * 指标每 17 分钟刷新到磁盘一次,并均匀分布 * 使用直接 I/O 和压缩 (ZSTD) * 可以完全在 RAM 中运行或流式传输到父节点
Netdata 与 Prometheus + Grafana 有什么不同?
使用 Netdata,您将获得一个完整的监控解决方案——而不仅仅是工具。 * 无需手动设置或仪表板 * 内置 ML、告警、仪表板和关联分析 * 更高效且更易于部署
Netdata 与商业 SaaS 工具有什么不同?
使用 Netdata,您可以将所有指标存储在自己的基础设施上——无采样、无聚合、无丢失。 * 默认提供高分辨率指标 * 每个指标都有 ML,而非共享模型 * 无限的可扩展性,且成本不会飙升
Netdata 可以与 Nagios、Zabbix 等工具一起运行吗?
是的。您可以将 Netdata 与传统工具结合使用。 通过 Netdata,您将获得: * 实时、高分辨率的监控 * 零配置和自动生成的仪表板 * 异常检测和高级可视化
如果我感到不知所措怎么办?
您可以从小处着手: * 使用仪表板的目录和搜索功能 * 探索异常评分("AR" 切换开关) * 在 Netdata Cloud 中创建自定义仪表板
我必须使用 Netdata Cloud 吗?
不必。Netdata Cloud 是可选的。 Netdata 没有它也能工作,但使用 Cloud 您可以: * 通过 SSO 进行远程访问 * 保存仪表板自定义设置 * 集中配置告警 * 通过基于角色的访问进行协作
Netdata 收集什么遥测数据?
匿名遥测有助于改进产品。您可以禁用它: * 向安装程序添加 `--disable-telemetry`,或 * 创建 `/etc/netdata/.opt-out-from-anonymous-statistics` 并重启 Netdata
谁在使用 Netdata?
您将加入包括以下用户的行列: * 大型公司(Amazon、ABN AMRO Bank、Facebook、Google、IBM、Intel、Netflix、Samsung) * 大学(NYU、Columbia、Seoul National、UCL) * 全球政府机构 * 基础设施密集型组织 * 技术运维人员 * 初创公司和自由职业者 * 系统管理员和 DevOps 专业人士
## \:book: 文档 访问 [Netdata Learn](https://learn.netdata.cloud) 获取完整的文档和指南。 ## \:tada: 社区 加入 Netdata 社区: * [Discord](https://discord.com/invite/2mEmfW735j) * [论坛](https://community.netdata.cloud) * [GitHub Discussions](https://github.com/netdata/netdata/discussions) 关注我们: [Twitter](https://twitter.com/netdatahq) | [Reddit](https://www.reddit.com/r/netdata/) | [YouTube](https://www.youtube.com/c/Netdata) | [LinkedIn](https://www.linkedin.com/company/netdata-cloud/) ## \:pray: 贡献 我们欢迎您的贡献。 您可以通过以下方式帮助我们保持敏锐: * 分享最佳实践和监控见解 * 报告问题或缺失的功能 * 改进文档 * 开发新的集成或收集器 * 在论坛和聊天中帮助用户 ## \:scroll: 许可证 Netdata 生态系统包括: * **Netdata Agent** – 开源核心 (GPLv3+)。**包括**数据收集、存储、ML、告警、API,并**重新分发**其他几个开源工具和库。 * [Netdata Agent 许可证](https://github.com/netdata/netdata/blob/master/LICENSE) * [Netdata Agent 重新分发说明](https://github.com/netdata/netdata/blob/master/REDISTRIBUTED.md) * **Netdata UI** – 闭源但可随 Netdata Agent 和 Cloud 免费使用。通过 CDN 交付。它集成了第三方开源组件。 * [Netdata Cloud UI 许可证](https://app.netdata.cloud/LICENSE.txt) * [Netdata UI 第三方许可证](https://app.netdata.cloud/3D_PARTY_LICENSES.txt) * **Netdata Cloud** – 闭源,提供免费和付费层级。增加远程访问、SSO、可扩展性。
标签:AIOps, DevOps工具, HTTP工具, IT基础设施监控, Kubernetes监控, Linux监控, Mr. Robot, Netdata, WSL, 云原生监控, 人工智能运维, 代理服务器, 全栈可观测性, 全栈排查, 子域名突变, 客户端加密, 客户端加密, 容器监控, 开源监控, 指标可视化, 故障排查, 无线安全, 日志审计, 秒级指标, 系统性能分析, 网络安全审计, 请求拦截, 进程监控, 逆向工具, 零配置, 高精度监控