开发自己的分布式监控Prometheus Exporter时遇到的坑

这里说下我在开发自己的Prometheus Exporter时遇到的几个坑，所谓的坑，其实是在开发过程中需要注意到的几个关键点，如果忽略，那么可能会产生错误和非预期的结果。

开发自己的分布式监控Prometheus Exporter时遇到的坑

如果对Prometheus不了解的，可以自行谷歌或百度一下，或者可以看下我之前的一篇文章。Prometheus是基于Pull的工作模式，需要定期的从Agent端收集数据，并入库，这里的Agent被称为Exporter。官网和社区里目前很多成熟的expoter可以选择，比如监控linux机器的node_exporter、监控mysql的mysqld_exporter等等。这里的大多数都是用Go语言写的，其实理解了Exporter和Prometheus的工作原理之后就知道，exporter其实就是将收集的数据转化为文本格式，并对外暴露接口，提供 http 请求，所以很容自己实现一个，不必拘泥于用那种语言，你可以用Java、PHP或者Python等任何你擅长的。我这里用Python Flask框架写了一个监控vSphere Datastore的Exporter，开发过程中需要注意一下几点：

Exporter的整体文本数据格式：

Exporter的返回的是文本内容，其中以行为单位，空行将被忽略, 文本内容最后一行为空行；

文本内容以“# HELP”开头的行为注释，表示帮助信息，以“# TYPE”开头的行表示此Metric的类型；

exporter有四种数据类型，分别为：counter/gauge/histogram/summary。
Exporter每一行文本的格式
1. 在每一行文本的最后不能有空格，否则会不识别
2. 在每一Metric行代表一个Key、Value对，Value的值是float类型，如果有两个Value值，最后
  
  一个会被认为是时间戳进行保存，比如：
  
  http_requests_total{method=”post”,code=”200″} 1027 1395066363000
3. Metrics的Label的value值必须要用双引号“”引起来
Exporter的Content-Type必须是text类型：
1. 这里我flask返回页面的Content-Type设置为：text/plain

开发自己的分布式监控Prometheus Exporter时遇到的坑

4. Prometheus有自己的python的client:

项目地址如下：

https://github.com/prometheus/client_python

如果不想重复造轮子，可以选择用官网提供的lient端。

5. Exporter接口的响应时间

默认Prometheus是每隔15秒抓取一次数据，每次的timeout超时时间是10s，这个也可以在配置文件里自定义。要注意Exporter的接口响应时间一定要比server配置里的小。

原创文章，作者：3628473679，如若转载，请注明出处：https://blog.ytso.com/186222.html

开发自己的分布式监控Prometheus Exporter时遇到的坑

相关推荐

发表回复