基础监控系统建设

监控,是运维的眼睛,是稳定性建设中最重要的一环。

26岁的迷茫

天气很好的傍晚,从东北旺的路口向西远眺,可以看到夕阳顺着百望山洒下金色的余晖,辉煌而壮阔。抬起头来直视夕阳,感觉整个人都被金色的光芒所吞没,虚幻且真实。

OPEN-FALCON日志采集组件的设计与实践

近期,笔者完成了【Open-Falcon日志采集组件】的开源工作。 原本这是公司内部的一个日志采集的agent,在开源的时候,笔者跟Open-Falcon结合起来了,这样同学们二次开发的成本更少些。 本文我们就来聊一聊监控系统 实时日志采集 的那些事。

基础监控系统:浅谈数据采集

随着互联网的发展,运维工作的复杂度成倍增加;与之关联的,各种运维平台的复杂程度也在成倍增加。 在此场景下,如何最大程度满足稳定性工作需求,并保证我们的系统相对的干净与解耦,是我们一直在追求和探讨的。 监控系统的话题,很大。 本篇文章为笔者监控系列文章第一篇,仅介绍监控系统的采集环节。

服务树——灵活的运维资源管理方式

运维行业发展至今,从最初的人肉运维、脚本时代,到后期的平台化阶段、以及现在很火的AIOps的概念。都绕不过一个主题——资源管理。

对运维开发工作的一些思考

运维开发这个岗位与普通的业务开发不同,与日常的运维工作也不同。要求兼顾开发与运维两种能力。既要掌握不弱于业务开发的开发技术;又要负责SRE同学日常的运维能力;上线之前,还要像QA同学一样,对自己的服务进行测试和分级变更。

FALCON-GRAPH扩容二三事

前言 监控系统是整个运维环节,乃至整个产品生命周期中最重要的一环。而Open-Falcon是目前业界做的最开放、最好用的互联网企业级监控产品。 Open-Falcon的底层存储,使用RRDTool时间序列数据库。在Transfer & Query模块,使用一致性哈希来对数据做均匀的分片。完美的满足了海量数据的存储以及高效、快速的查询。 然而当存储、IO、或者某一方面资源到达瓶颈的时候,我们的存储组件就需要通过扩容来继续满足使用的压力及需求。 本篇文章就将我们扩容的经验及过程分享给大家。

PYTHON伪终端编程——实时、全量抓取终端输出流

引言 之前在上家公司,堡垒机的审计,是我用C语言开发的。C语言对于流的处理非常的得心应手。但是开发效率较低,尤其是对数据的处理部分的开发效率较慢。

GOLANG的INTERFACE——更强大的面向对象

interface是“类的类” Go语言中,是没有类这个概念的。但实际上,抽象却是无处不在的。 对结构体的定义和继承、结构体方法的绑定。无处不暗示着Go语言对于面向对象原生的支持。

GO的异常处理(附最佳实践)

前言 在程序执行的时候,很可能会遇到各种各样的问题,可能是内部的逻辑问题,也可能是外部环境依赖问题。