基于Prometheus+Robusta+ChatGPT的告警自动修复及AI问询实现
7
2023-03-28
基于Prometheus+Robusta+ChatGPT的告警自动修复及AI问询实现
Robusta
官网:https://home.robusta.dev/主要特点
- 内置多种告警:OOMKill、CrashLoopBackoffs、文件系统磁盘
- 警报充实:大多数 Prometheus 警报都包含有关触发警报的资源的元数据。但是,该元数据经常被忽略或仅用于手动调查。
- 可观测性好:用于 Kubernetes 监控和故障排除的统一管理平台。从一个集群开始,添加任意数量的集群。不用在一个系统中查看日志,在另一个系统中查看图表,在第三个系统中查看警报。使用 Robusta 可在一处完成所有操作。
- 自动修复:有些问题是独特的,但许多问题会重复出现并且有已知的解决方法。Robusta 可以轻松地自动修复已知问题。在 YAML 中配置修复操作或在 Python 中编写您自己的操作以实现完全可定制性。
- 审计功能:查看在严重故障发生前 20 秒发生的确切生产变化。永久记录您关心的所有更改。在 Robusta 中查看或将它们运送到外部目的地。
运行原理

下载 robusta 脚本
curl -fsSL -o robusta https://docs.robusta.dev/master/_static/robusta && chmod +x robusta # 查看robusta版本 $ ./robusta version Please wait [-] version 0.10.14
大陆无法拉取镜像的办法
https://159.75.81.167/685.html用Google账号注册robusta
https://platform.robusta.dev
查看初始页面,提示需要安装Robusta

生成robusta配置
[root@hangzhou ~]# ./robusta gen-config Robusta reports its findings to external destinations (we call them "sinks"). We'll define some of them now. # 是否配置Slack集成 Configure Slack integration? This is HIGHLY recommended. [Y/n]: y If your browser does not automatically launch, open the below url: https://api.robusta.dev/integrations/slack?id=XXX
点击Add to Slack并选择需要添加的组织

授权允许

连接成功

绑定成功后会出现如下应用标志

查看应用

继续配置
You've just connected Robusta to the Slack of: AutumnStack # 输入通知发送的频道 Which slack channel should I send notifications to? # robusta-bot # 是否配置MsTeams集成 Configure MsTeams integration? [y/N]: N # 是否配置Robusta UI Configure Robusta UI sink? This is HIGHLY recommended. [Y/n]: Y # 填写刚刚注册的Google账号 Enter your Gmail/Google address. This will be used to login: XXX@gmail.com # 设置组织名,不可与其他人重复 Choose your account name (e.g your organization name): hangzhou Successfully registered. # 设置使用Prometheus作为告警源 Robusta can use Prometheus as an alert source. # 如果你还没有安装,Robusta可以安装一个预先配置好的Prometheus If you haven't installed it yet, Robusta can install a pre-configured Prometheus. Would you like to do so? [y/N]: y # 阅读协议 Please read and approve our End User License Agreement: https://api.robusta.dev/eula.html Do you accept our End User License Agreement? [y/N]: y # 你愿意通过发送异常报告来帮助我们改进Robusta吗? Last question! Would you like to help us improve Robusta by sending exception reports? [y/N]: n Saved configuration to ./generated_values.yaml - save this file for future use! Finish installing with Helm (see the Robusta docs). Then login to Robusta UI at https://platform.robusta.dev
查看配置
# cat /root/generated_values.yaml globalConfig: signing_key: KEY_XXX account_id: ID_XXX sinksConfig: - slack_sink: name: main_slack_sink slack_channel: robusta-bot api_key: KEY - robusta_sink: name: robusta_ui_sink token: TOKEN enablePrometheusStack: true enablePlatformPlaybooks: true runner: sendAdditionalTelemetry: false rsa: private: KEY_XXX public: KEY_XXX
加密配置(可选)
可以使用Kubernetes的Secret来保存相关密钥 https://docs.robusta.dev/master/user-guide/configuration-secrets.html刷新页面查看是否配置成功,出现Setup即可。

安装robusta
配制helm仓库
helm repo add robusta https://robusta-charts.storage.googleapis.com helm repo update
获取集群名称
$ kubectl config view --minify --output 'jsonpath={.clusters[].name}' kubernetes
指定配置安装
helm install robusta robusta/robusta \ --namespace robusta \ --create-namespace \ --values /root/generated_values.yaml \ --set clusterName=kubernetes # 可选,减少资源占用 --set isSmallCluster=true
查看输出

检查

Slack通知告警测试
# 模拟创建一个崩溃的 pod $ kubectl apply -f https://gist.githubusercontent.com/robusta-lab/283609047306dc1f05cf59806ade30b6/raw一旦 pod 达到两次重启,Slack 频道会收到有关崩溃的 pod 的消息

Robusta控制台也能看到


删除测试
$ kubectl delete -f https://gist.githubusercontent.com/robusta-lab/283609047306dc1f05cf59806ade30b6/raw
增加Sink:DIscord
目前支持的sink:https://docs.robusta.dev/master/catalog/sinks/index.html DIscord参考链接:https://docs.robusta.dev/master/catalog/sinks/webhook.html#webhook配置DIscord webhook



更改generated_values.yaml
在generated_values.yaml
中添加discord_sink参数
sinksConfig: - discord_sink: name: personal_discord_sink url:输出所示:
# cat /root/generated_values.yaml globalConfig: signing_key: KEY_XXX account_id: ID_XXX sinksConfig: - slack_sink: name: main_slack_sink slack_channel: robusta-bot api_key: KEY sinksConfig: - discord_sink: name: personal_discord_sink url: https://discord.com/api/webhooks/xxx - robusta_sink: name: robusta_ui_sink token: TOKEN enablePrometheusStack: true enablePlatformPlaybooks: true runner: sendAdditionalTelemetry: false rsa: private: KEY_XXX public: KEY_XXX
更新
helm upgrade robusta robusta/robusta \ --namespace robusta \ --set clusterName=kubernetes \ --values=generated_values.yaml

测试告警

kubectl apply -f https://gist.githubusercontent.com/robusta-lab/283609047306dc1f05cf59806ade30b6/raw很快就收到了



配置ChatGPT智能问询
添加playbook
将以下内容添加到generated_values.yaml
$ tail -10 generated_values.yaml # Add the playbookRepos playbookRepos: chatgpt_robusta_actions: url: "https://github.com/robusta-dev/kubernetes-chatgpt-bot.git" customPlaybooks: # Add the 'Ask ChatGPT' button to all Prometheus alerts - triggers: - on_prometheus_alert: {} actions: - chat_gpt_enricher: {}
添加chatgpt的API
$ head -4 generated_values.yaml globalConfig: signing_key: xxx account_id: xxx chat_gpt_token: xxx
更新配置
helm upgrade robusta robusta/robusta \ --namespace robusta \ --set clusterName=kubernetes \ --values /root/generated_values.yaml
测试告警并询问ChatGPT

查看ChatGPT给出的建议

翻译
如何解决Kubernetes上的etcdDatabaseHighFragmentationRatio? * 1. 检查etcd数据库的碎片率: 你可以通过运行以下命令来检查etcd数据库的碎片率: etcdctl defrag 2. 增加etcd数据库大小: 如果碎片率很高,你可以通过运行以下命令来增加etcd数据库的大小: etcdctl --endpoints=--write-out=table snapshot save 。 3. 压缩etcd数据库: 你可以通过运行以下命令来压缩etcd数据库: etcdctl --endpoints= --write-out=table compact 4. 重新启动etcd服务: 最后,你可以通过运行以下命令来重启etcd服务以应用这些变化: systemctl restart etcd
额外的集群上安装
直接拿前面生成的generated_values.yaml 配上新的 clusterName 即可。helm repo add robusta https://robusta-charts.storage.googleapis.com helm repo update helm install robusta robusta/robusta \ --namespace robusta \ --create-namespace \ --values /root/generated_values.yaml \ --set clusterName=kubernetes如果丢失了
generated_values.yaml
文件,可以从任何运行 Robusta 的集群中提取。但是,clusterName
andisSmallCluster
可能已经在generated_values.yaml
. 确保在新集群上安装之前删除。
helm get values -o yaml robusta | grep -v clusterName: | grep -v isSmallCluster: > generated_values.yaml
- 0
-
分享