站内搜索

本次搜索找到结果 7 条

初衷

前面曾经简单介绍过prometheus在web平台初期的落地实践.经过一段时间的使用,随着期望接入的业务越来越多,业务的应用场景也随之变得复杂.大多轻量级的业务可以配合进行代码内部打点改造,但是大部分业务代码内部复杂度较高,侵入式的打点改造成本也十分高.因此在现有监控系统上进行改造,让业务也最小的成本享受到prometheus的特性也变的更急迫.

初衷

最近参与的几个项目,无一例外对监控都有极强的要求,需要对项目中各组件进行详细监控,如服务端API的请求次数,响应时间,到达率,接口错误率,分布式存储中的集群IOPS,节点在线情况,偏移量等。比较常见的方式是写日志,将日志采集到远端进行分析和绘图,或写好本地监控脚本进行数据采集后,通过监控系统客户端push到监控系统中进行打点。基本上我们需要的都能覆盖,但仍然有一些问题在使用上不太舒服,如在大规模请求下日志采集和分析的效率比较难控制或push打点的粒度和维度以及查询不够灵活等。

本文译自 COMPARISON TO ALTERNATIVES ,翻译的比较粗浅,希望能对了解 prometheus 有所帮助.

Prometheus vs. Graphite

适用范围

Graphite 关注点是作为一个被动机制的时间序列数据库,有自己的查询语言和绘图方式.其他特性需要通过外部组件来实现.

首先-什么是 TSDB (Time Series Database):

我们可以简单的理解为.一个优化后用来处理时间序列数据的软件,并且数据中的数组是由时间进行索引的.

时间序列数据库的特点:

前言

这几天打算利用碎片时间读了一下"SRE Google运维解密"这本书,目前读了前几章,感觉收获颇多,结合自己的工作经历和书中的要点,写一些感悟和思考

原文 https://blog.raintank.io/logs-and-metrics-and-graphs-oh-my/

Grafana已经被大量用户使用并且有种类繁多的数据来源,在这些收集数据的方式方法中,日志收集方式为代表的是Elasticsearch,ELK stack(Elasticsearch, Logstash and Kibana)的一部分,计量方式为代表的是Prometheus.

监控对于我们意味着什么?监控意味着知晓系统内部发生了什么,通信情况如何,性能怎么样,有多少报错。但这不是终极目标,只是一种方法。我们的目标是能够探测,排查和解决当前出现的问题,监控是整个流程的一个组成部分。
让我们看看日志和计量如何帮助我们实现目标。

最近看了一些时间序列数据库(TSDB)相关的资料,和大家分享一下。
时间序列数据库对于我们并不陌生,最早的RRDTool就可以认为是一种时间序列数据库,因为它的功能比较简单,无法满足复杂查询要求,而且随着大数据,IOT兴起,对于时间序列数据需求越来越多,所以时间序列数据库开始“热”了起来,很多大厂也开源了自己的TSDB。