一、Compose 简介 Compose 是用于定义和运行多容器 Docker 应用程序的工具。通过 Compose可以使用 YML 文件来配置应用程序需要的所有服务。然后,使用一个命令,就可以从 YML 文件配置中创建并启动所有服务。compose对于单机或者少量机器的docker管理比较友好,批量node节点的管理还是通过k……
Continue reading
Graphviz是大名鼎鼎的贝尔实验室的几位牛人开发的一个画图工具。它的理念和一般的“所见即所得”的画图工具不一样,是“所想即所得”。 Graphviz提供了dot语言来编写绘图脚本。 一、安装 graphviz可以使用在windows上,也可以使用在linux和MAC上,在cento……
Continue reading
近期着手参与了CMDB应用的相关工作,这里就CMDB整体的建设思路做个简单的小结。CMDB的建设整体过程,我大致根据自已参与的经验总结为几个阶段:前期技术架构调研—各CMDB使用方需求调研—形成目标功能—投入建设—形成能力&mdas……
Continue reading
一、SRE监控的目标 根据SRE监控的目的不同,可以将监控进行功能性分类,具体如下: 在需要人工介入的情况下,发出告警;(对应SLO和健康度打分) 调查及诊断这些问题;(根因智鉴) 展示有关于系统的可视化信息;(运维大盘或监控大屏) 获取有关资源使用率或服务健康度的趋势分析,用于制定长期的……
Continue reading
运维行业有句话:“无监控、不运维”,监控是及时发现现网问题的一种手段,并通过这种手段及时介入进行处理。不过在设备量不多的情况下,监控是比较容易处理的,我们可以配置的尽可能全,现网设备有个风吹草动,就可以让系统报出来,但设备随着1000台、1万台、10万台这样的规模上起来的时候,监……
Continue reading
一、SLO目标与错误预算 SRE体系中的SLO制定有一个比较重要的原则就是需要获得利益干系者的认同。这些干系者包括但不限于产品经理、产品开发人员、运维人员。产品经理需要为用户负责,当SLO的指标值低于目标值时,显然会得不到用户的满意,不过产品经理也不能追求100%的SLO可靠性,这……
Continue reading
设计SLO的目的是什么?设定SLO目标是面向客户感知的,当系统的表现高于SLO阀值时,用户感知是满意的,在低于这个值时,用户可能就会要抱怨了。不过客户满意度这是个模糊的概念,而且在不同情况下,即像你的系统的SLO达到了100%,客户可能也是不满意的。为什么会这样?先从SLO的平衡……
Continue reading
一、SLO的重要性 SLO是(service level objective)服务质量目标的简称,其是用于定量的描述服务可靠性的程度,它是SRE实践的核心。引用google工作手册上的一段话:SRE的核以职责并不只是将”所有工作“都自动化,并保持on-call状态。其实SRE们的日常任务和项目……
Continue reading
mycre SRE的组织闭环在不同的公司和不同的业务线可能会有不同的方式进行闭环,我现在所有企业是以提供IAAS层服务的,由于设备量是万为单位的,根据需求,企业在原有专业组和各软硬件设备提供商之外,组建了CRE架构团队、总控调度团队、质量管控团队。这里对其分工和google体系中的提到内容……
Continue reading
srework SRE的工作是由日常运维、工具研发、应急管理三部分构成的,这个在之前也提到过了。但在具体落地的时候对应的有八大黄金准则。这八大黄金准则不是GOOGLE提出的,也不是我杜撰的,是GNSEC会议上有企业提出的总结,既然有这样的总结,我想也是有一定的道理的,这里分别做下说明。 追求最大……
Continue reading