sudhanshu-acl/aiops-logs-demo

GitHub: sudhanshu-acl/aiops-logs-demo

一个展示如何利用Prometheus、Grafana等开源工具构建集中化监控与日志管理流程,并探索AIOps理念在IT运维中应用的演示项目。

Stars: 0 | Forks: 0

## 监控 - 构建应用程序的一个重要组件是监控系统的健康状况、性能和日志,以便更好地了解系统运行情况。 例如:我们可能会去某个房产,保安通常会记录一些详细信息。当房产所有者到来时,他们可以通过当天的数据查看哪些人访问了该房产。因此,保安基本上就是在维护访问该房产的人员日志。 ## 监控工具 - 在应用程序中,使用某些包来记录应用程序的一些重要流程 - Nginx 和系统自身会维护日志 - Cloudwatch 和其他云端托管的日志维护服务 ### 它有什么帮助? - 有多少请求? - 有多少异常? - 消耗了多少服务器资源? - 使用库暴露 /metrics 端点 - 应用程序 / 服务器将数据推送到集中式收集平台 - 安装额外的软件或工具来推送指标 ## 一些开源工具 - Prometheus - Grafana - Loki - Cloudwatch - winston - fluent-bit,推送代理 ## Prometheus 数据存储 Prometheus 服务器 数据拉取 存储 HTTP - 拉取 /metrics - 存储指标 - 接受查询 - 时间序列数据 - PromQl ## AIOS 想法 - 当您添加项目或服务器时 - 提供 AWS_ACCESS_KEY_ID、AWS_SECRET_ACCESS_KEY、AWS_REGION。 - 将这些值安全地存储到 AWS Parameter Store 中, 根据 projectId 或 server id,我们从 AWS Parameter Store 服务中获取这些环境变量。
标签:AIOps, Apex, APM, AWS, AWS CloudWatch, AWS Parameter Store, DPI, Fluent-bit, FOFA, Grafana, IT运维自动化, Loki, Nginx, NLP, OISF, PromQL, SRE, StruQ, Winston, 事件关联分析, 亚马逊云, 人工智能运维, 代码分析, 偏差过滤, 凭证管理, 大数据分析, 安全存储, 库, 应急响应, 应用性能管理, 异常检测, 微服务监控, 性能监控, 指标监控, 操作系统检测, 日志管理, 智能运维, 机器学习, 自定义脚本, 自定义请求头, 访问密钥管理