sudhanshu-acl/aiops-logs-demo
GitHub: sudhanshu-acl/aiops-logs-demo
一个展示如何利用Prometheus、Grafana等开源工具构建集中化监控与日志管理流程,并探索AIOps理念在IT运维中应用的演示项目。
Stars: 0 | Forks: 0
## 监控
- 构建应用程序的一个重要组件是监控系统的健康状况、性能和日志,以便更好地了解系统运行情况。
例如:我们可能会去某个房产,保安通常会记录一些详细信息。当房产所有者到来时,他们可以通过当天的数据查看哪些人访问了该房产。因此,保安基本上就是在维护访问该房产的人员日志。
## 监控工具
- 在应用程序中,使用某些包来记录应用程序的一些重要流程
- Nginx 和系统自身会维护日志
- Cloudwatch 和其他云端托管的日志维护服务
### 它有什么帮助?
- 有多少请求?
- 有多少异常?
- 消耗了多少服务器资源?
- 使用库暴露 /metrics 端点
- 应用程序 / 服务器将数据推送到集中式收集平台
- 安装额外的软件或工具来推送指标
## 一些开源工具
- Prometheus
- Grafana
- Loki
- Cloudwatch
- winston
- fluent-bit,推送代理
## Prometheus 数据存储
Prometheus 服务器
数据拉取 存储 HTTP
- 拉取 /metrics - 存储指标 - 接受查询
- 时间序列数据 - PromQl
## AIOS 想法
- 当您添加项目或服务器时
- 提供 AWS_ACCESS_KEY_ID、AWS_SECRET_ACCESS_KEY、AWS_REGION。
- 将这些值安全地存储到 AWS Parameter Store 中,
根据 projectId 或 server id,我们从 AWS Parameter Store 服务中获取这些环境变量。
标签:AIOps, Apex, APM, AWS, AWS CloudWatch, AWS Parameter Store, DPI, Fluent-bit, FOFA, Grafana, IT运维自动化, Loki, Nginx, NLP, OISF, PromQL, SRE, StruQ, Winston, 事件关联分析, 亚马逊云, 人工智能运维, 代码分析, 偏差过滤, 凭证管理, 大数据分析, 安全存储, 库, 应急响应, 应用性能管理, 异常检测, 微服务监控, 性能监控, 指标监控, 操作系统检测, 日志管理, 智能运维, 机器学习, 自定义脚本, 自定义请求头, 访问密钥管理