包含标签 SRE articles

使用Correlation ID定位微服务问题

软件架构微服务化后,虽然软件间的耦合性更好了,不过在出现问题后,增加了定位问题的困难,所以就出现了 Correlation ID 来方便问题定位。首先我们看下关于 Correlation ID 在流程中的传输过程如下图:的定义描述。 The correlation identifier is a unique identifier attached to each request in architecture. The correlation ID is not an error number or code. Simply, it’s a GUID (globally unique identifier) that’s automatically generated for every request. There is no standard format for the correlation……

Continue reading

SRE应急处置中的"六查"

人食五谷杂粮难免会生病,IT系统运行中也会难免有”头疼发热“,人生病了医生会望、闻、问、切一套操作,IT系统也一样,在SRE运维中可以运用 ”六查 “ —– 查关联关系、查变更信息、查操作记录、查告警信息、查性能数据、查机房工况来完成故障问题的定界定位。 一、查关联关系 先查看下面一张图,左……

Continue reading

SRE运维(九)“面向对象”的监控

一、SRE监控的目标 根据SRE监控的目的不同,可以将监控进行功能性分类,具体如下: 在需要人工介入的情况下,发出告警;(对应SLO和健康度打分) 调查及诊断这些问题;(根因智鉴) 展示有关于系统的可视化信息;(运维大盘或监控大屏) 获取有关资源使用率或服务健康度的趋势分析,用于制定长期的……

Continue reading

SRE运维(八)监控数据源

运维行业有句话:“无监控、不运维”,监控是及时发现现网问题的一种手段,并通过这种手段及时介入进行处理。不过在设备量不多的情况下,监控是比较容易处理的,我们可以配置的尽可能全,现网设备有个风吹草动,就可以让系统报出来,但设备随着1000台、1万台、10万台这样的规模上起来的时候,监……

Continue reading

SRE运维(七)错误预算和持续改进

一、SLO目标与错误预算 SRE体系中的SLO制定有一个比较重要的原则就是需要获得利益干系者的认同。这些干系者包括但不限于产品经理、产品开发人员、运维人员。产品经理需要为用户负责,当SLO的指标值低于目标值时,显然会得不到用户的满意,不过产品经理也不能追求100%的SLO可靠性,这……

Continue reading

SRE运维(六)如何正确制定SLO

设计SLO的目的是什么?设定SLO目标是面向客户感知的,当系统的表现高于SLO阀值时,用户感知是满意的,在低于这个值时,用户可能就会要抱怨了。不过客户满意度这是个模糊的概念,而且在不同情况下,即像你的系统的SLO达到了100%,客户可能也是不满意的。为什么会这样?先从SLO的平衡……

Continue reading

SRE运维(五)从SLO开始

一、SLO的重要性 SLO是(service level objective)服务质量目标的简称,其是用于定量的描述服务可靠性的程度,它是SRE实践的核心。引用google工作手册上的一段话:SRE的核以职责并不只是将”所有工作“都自动化,并保持on-call状态。其实SRE们的日常任务和项目……

Continue reading

SRE运维(四)SRE的组织闭环

mycre SRE的组织闭环在不同的公司和不同的业务线可能会有不同的方式进行闭环,我现在所有企业是以提供IAAS层服务的,由于设备量是万为单位的,根据需求,企业在原有专业组和各软硬件设备提供商之外,组建了CRE架构团队、总控调度团队、质量管控团队。这里对其分工和google体系中的提到内容……

Continue reading

SRE运维(三)SRE黄金准则

srework SRE的工作是由日常运维、工具研发、应急管理三部分构成的,这个在之前也提到过了。但在具体落地的时候对应的有八大黄金准则。这八大黄金准则不是GOOGLE提出的,也不是我杜撰的,是GNSEC会议上有企业提出的总结,既然有这样的总结,我想也是有一定的道理的,这里分别做下说明。 追求最大……

Continue reading

SRE运维(二)SRE与devops

在IT运维技术里有很多名词,除了SRE之外,还有devops、chatops、aiops,很多人很容易被这么多ops搞蒙,而且很多人会觉得有了这个干吗还要搞那个?是不是互相抄袭理念。本偏呢就重点说下SRE和devops,因为这两个出现的最早。 一、出现时间 上一篇我们了解到Googl……

Continue reading

Latest articles

Categories

Tags

ACL AD AES AI AWS Ansible Atlassian Azure BMC Blockchain Brocade CDH5 CL210 Cobbler Confd C语言 DDOS DISTINCT DNS EKS ELK GCP Ghost Git Glusterfs Go Godaddy Grafana HBA HCIE Hotspot HttpWatch IBM IIS IOS InfluxDB Ingress InnoDB JavaScript Jinja2 KVM Keepalived Mplayer MySQLdb Netlify OpenResty PM PostgreSQL QoS RH318 RH442 RHCA RHCE RHEV RSA SRE SecureCRT Statuscode SublimeText2 TC Telecom Tencentcloud VBA aira2 alpine android anpic apache apm apparmor appfog apr apt-get aria2 array atop audit awk awstats axel backdoor backup bamboo bash bat benchmark bigdata bin bind bitwise book bootstrap bsd c1000 cache capistrano catlog centos centos7 chatops chattr check_mk checkinstall cisco clearall clickhouse cloud-desktop cmdb cms collectd comm compress conver corosync cpu crontab crunchbang css curl date decode dell desktop devops df dhcp diff diskpart django docker dos2unix dpkg drupal etcd excel fail2ban fastcgi fdisk fiddler find firewalld flask flvtool ftp function fuser geek gin github gitlab glances golang google gooupadd graphviz gravatra grep grub2 hadoop haproxy hardware heartbeat helm hexdump hhvm history html http/html/web httplogs https huawei huaweicloud hugo icmp iconv ifconfig inotify iopp ipmitool iptables iredmail iscsi isito it-news java jdk jenkins jira join joomla k3s k8s kdump kernel kingate lamp last leetcode lib light-http linux linux高级篇 ln ls lsi lsof lvm lvs mac mail man mark markdown matplotlib maven memcached microservice mimikatz mkdocs mkpasswd mmonit mod_jk mongodb monit monitor mono moodle mosh mount mpm mrtg mtr my.cnf mysql mysqlbinlog mysqld_multi mysqldump mysqlhotcopy nagios nc nethogs nexus nfs nginx nmon nocatlog node.js nrpe ntfs ntop ntp obs ocr open-falcon openbox opencv openldap openssl openstack oracle oswatch paas pacemaker pam pandas parted pcp pcre pdf percona perl pexpect pgrep php php-fpm ping plsql develope postfix powershell prettify proc prometheus puppeteer pushd pwgen pxe pyecharts python python模块 radmin raid rdesktop read redhat redis redmine regex rh134 rhel7 rhel8 rm rman rootkit route rpm rpmforge rrdtool rsync rsyslog safe saltstack samba scapy screen sed selenium selinux seo seq session set shc sheepdog shell shopt sitemap skydns smokeping snffier snmp socket soft sort spider sql sqlserver squid ss ssh sshpass strace strings su sudo suse svn sysbench syslog-ng sysstat systemd t tar tcpcopy tcpdump tech telnet tengine test testlink threads time tmux tomcat touch tr tsar twisted ubuntu udev ulimit unix unixbench user-agent useradd varnish vbs vercel vi vim visudo vmstat vmware vnc voice vpn vscode vsftp vsftpd vue watchdog web webcam webistrano wget wiki windows wol wordpress workshop wsl x-windows xampp xcache xmllint xtrabackup yule yum zabbix zeromq zip zonetime zookeeper 下载工具 云主机 云原生 代理 加密 古意 吐槽 圈里圈外 娱乐 字符串函数 安全 平台架构 意林 推理 提权 故事汇 故障案例 数据结构 每日看点 民国史 生活 科学记录 站长管理工具 算法 管理 网站架构 翻墙 股票 行业 诗韵 负载均衡 远程管理 面试题

Links

Meta