秋栈博客

七月

基于Prometheus+Robusta+ChatGPT的告警自动修复及AI问询实现

2023-03-28

基于Prometheus+Robusta+ChatGPT的告警自动修复及AI问询实现

 

Robusta

官网:https://home.robusta.dev/

主要特点

  • 内置多种告警:OOMKill、CrashLoopBackoffs、文件系统磁盘
  • 警报充实:大多数 Prometheus 警报都包含有关触发警报的资源的元数据。但是,该元数据经常被忽略或仅用于手动调查。
  • 可观测性好:用于 Kubernetes 监控和故障排除的统一管理平台。从一个集群开始,添加任意数量的集群。不用在一个系统中查看日志,在另一个系统中查看图表,在第三个系统中查看警报。使用 Robusta 可在一处完成所有操作。
  • 自动修复:有些问题是独特的,但许多问题会重复出现并且有已知的解决方法。Robusta 可以轻松地自动修复已知问题。在 YAML 中配置修复操作或在 Python 中编写您自己的操作以实现完全可定制性。
  • 审计功能:查看在严重故障发生前 20 秒发生的确切生产变化。永久记录您关心的所有更改。在 Robusta 中查看或将它们运送到外部目的地。

运行原理

每个 Robusta 自动化都包含三个部分:触发器、操作和接收器。 触发器是启动自动化的条件。例如,失败的 Kubernetes 作业。 动作是您在自动化运行时执行的操作。例如,获取日志或收集 Java 堆转储。 接收器是发送任何输出的地方。例如,Slack 频道。 自动化是使用 YAML 配置的。YAML 将您的组织用于解决问题的最佳实践编纂成文。

下载 robusta 脚本

curl -fsSL -o robusta https://docs.robusta.dev/master/_static/robusta && chmod +x robusta
# 查看robusta版本
$ ./robusta version
Please wait
 [-]  
version 0.10.14

大陆无法拉取镜像的办法

https://159.75.81.167/685.html  

用Google账号注册robusta

https://platform.robusta.dev

查看初始页面,提示需要安装Robusta

 

生成robusta配置

[root@hangzhou ~]# ./robusta gen-config
Robusta reports its findings to external destinations (we call them "sinks").
We'll define some of them now.
# 是否配置Slack集成
Configure Slack integration? This is HIGHLY recommended. [Y/n]: y
If your browser does not automatically launch, open the below url:
https://api.robusta.dev/integrations/slack?id=XXX

点击Add to Slack并选择需要添加的组织

授权允许

连接成功

绑定成功后会出现如下应用标志

查看应用

继续配置

You've just connected Robusta to the Slack of: AutumnStack
# 输入通知发送的频道
Which slack channel should I send notifications to? # robusta-bot
# 是否配置MsTeams集成
Configure MsTeams integration? [y/N]: N
# 是否配置Robusta UI
Configure Robusta UI sink? This is HIGHLY recommended. [Y/n]: Y
# 填写刚刚注册的Google账号
Enter your Gmail/Google address. This will be used to login: XXX@gmail.com
# 设置组织名,不可与其他人重复
Choose your account name (e.g your organization name): hangzhou
Successfully registered.
# 设置使用Prometheus作为告警源
Robusta can use Prometheus as an alert source.
# 如果你还没有安装,Robusta可以安装一个预先配置好的Prometheus
If you haven't installed it yet, Robusta can install a pre-configured Prometheus.
Would you like to do so? [y/N]: y
# 阅读协议
Please read and approve our End User License Agreement: https://api.robusta.dev/eula.html
Do you accept our End User License Agreement? [y/N]: y
# 你愿意通过发送异常报告来帮助我们改进Robusta吗?
Last question! Would you like to help us improve Robusta by sending exception reports? [y/N]: n
Saved configuration to ./generated_values.yaml - save this file for future use!
Finish installing with Helm (see the Robusta docs). Then login to Robusta UI at https://platform.robusta.dev

查看配置

# cat /root/generated_values.yaml

globalConfig:
  signing_key: KEY_XXX
  account_id: ID_XXX
sinksConfig:
- slack_sink:
    name: main_slack_sink
    slack_channel: robusta-bot
    api_key: KEY
- robusta_sink:
    name: robusta_ui_sink
    token: TOKEN
enablePrometheusStack: true
enablePlatformPlaybooks: true
runner:
  sendAdditionalTelemetry: false
rsa:
  private: KEY_XXX
  public: KEY_XXX

加密配置(可选)

可以使用Kubernetes的Secret来保存相关密钥 https://docs.robusta.dev/master/user-guide/configuration-secrets.html  

刷新页面查看是否配置成功,出现Setup即可。

安装robusta

配制helm仓库

helm repo add robusta https://robusta-charts.storage.googleapis.com
helm repo update

获取集群名称

$ kubectl config view --minify --output 'jsonpath={.clusters[].name}'
kubernetes

指定配置安装

helm install robusta robusta/robusta \
--namespace robusta \
--create-namespace \
--values /root/generated_values.yaml \
--set clusterName=kubernetes
# 可选,减少资源占用
--set isSmallCluster=true 

查看输出

检查

Slack通知告警测试

# 模拟创建一个崩溃的 pod
$ kubectl apply -f https://gist.githubusercontent.com/robusta-lab/283609047306dc1f05cf59806ade30b6/raw
一旦 pod 达到两次重启,Slack 频道会收到有关崩溃的 pod 的消息

Robusta控制台也能看到

删除测试

$ kubectl delete -f https://gist.githubusercontent.com/robusta-lab/283609047306dc1f05cf59806ade30b6/raw
 

增加Sink:DIscord

目前支持的sink:https://docs.robusta.dev/master/catalog/sinks/index.html DIscord参考链接:https://docs.robusta.dev/master/catalog/sinks/webhook.html#webhook

配置DIscord webhook

更改generated_values.yaml

generated_values.yaml中添加discord_sink参数
sinksConfig:
- discord_sink:
    name: personal_discord_sink
    url: 
输出所示:
# cat /root/generated_values.yaml

globalConfig:
  signing_key: KEY_XXX
  account_id: ID_XXX
sinksConfig:
- slack_sink:
    name: main_slack_sink
    slack_channel: robusta-bot
    api_key: KEY
sinksConfig:
- discord_sink:
    name: personal_discord_sink
    url: https://discord.com/api/webhooks/xxx
- robusta_sink:
    name: robusta_ui_sink
    token: TOKEN
enablePrometheusStack: true
enablePlatformPlaybooks: true
runner:
  sendAdditionalTelemetry: false
rsa:
  private: KEY_XXX
  public: KEY_XXX

更新

helm upgrade robusta robusta/robusta \
--namespace robusta \
--set clusterName=kubernetes \
--values=generated_values.yaml

测试告警

kubectl apply -f https://gist.githubusercontent.com/robusta-lab/283609047306dc1f05cf59806ade30b6/raw
很快就收到了 可以看到DIscord这里集成的比较好,可以展开详细日志、跳转链接:下载日志文件、设置代码类型。如yaml、golang。

配置ChatGPT智能问询

添加playbook

将以下内容添加到generated_values.yaml
$ tail -10 generated_values.yaml
# Add the playbookRepos
playbookRepos:
  chatgpt_robusta_actions:
    url: "https://github.com/robusta-dev/kubernetes-chatgpt-bot.git"
customPlaybooks:
# Add the 'Ask ChatGPT' button to all Prometheus alerts
- triggers:
  - on_prometheus_alert: {}
  actions:
  - chat_gpt_enricher: {}

添加chatgpt的API

$ head -4 generated_values.yaml
globalConfig:
  signing_key: xxx
  account_id: xxx
  chat_gpt_token: xxx

更新配置

helm upgrade robusta robusta/robusta \
--namespace robusta \
--set clusterName=kubernetes \
--values /root/generated_values.yaml

测试告警并询问ChatGPT

查看ChatGPT给出的建议

翻译

如何解决Kubernetes上的etcdDatabaseHighFragmentationRatio?
*
1. 检查etcd数据库的碎片率:
你可以通过运行以下命令来检查etcd数据库的碎片率:
etcdctl defrag
2. 增加etcd数据库大小:
如果碎片率很高,你可以通过运行以下命令来增加etcd数据库的大小:
etcdctl --endpoints= --write-out=table snapshot save 。
3. 压缩etcd数据库:
你可以通过运行以下命令来压缩etcd数据库:
etcdctl --endpoints= --write-out=table compact
4. 重新启动etcd服务:
最后,你可以通过运行以下命令来重启etcd服务以应用这些变化:
systemctl restart etcd
 

额外的集群上安装

直接拿前面生成的generated_values.yaml 配上新的 clusterName 即可。
helm repo add robusta https://robusta-charts.storage.googleapis.com
helm repo update
helm install robusta robusta/robusta \
--namespace robusta \
--create-namespace \
--values /root/generated_values.yaml \
--set clusterName=kubernetes
如果丢失了generated_values.yaml文件,可以从任何运行 Robusta 的集群中提取。但是,clusterNameandisSmallCluster可能已经在generated_values.yaml. 确保在新集群上安装之前删除。
helm get values -o yaml robusta | grep -v clusterName: | grep -v isSmallCluster: > generated_values.yaml
 
  • 0