一、什么是 SRE?
SRE(Site)于2003年由提出,至今已近20年。它不仅是一个帖子,而且是一个系统的项目。首先提出SRE是为了解决两个核心冲突:1、开发和运维团队的上线速度和现网系统稳定性之间的冲突;2、软件的快速上线,模糊了运维和研发的界限。 SRE 通过软件工程技术不断提升现有网络的可用性和自动化运维能力。SRE作为一个新的技术阵地已经进入了历史舞台。
SRE 是站点可用性工程师:SRE 强调软件和系统工程能力,需要编写自动化脚本来优化和改进配置。写代码是必要的技能要求,因为代码是支持工具开发和自动化的手段,但不鼓励写大量代码,希望用简单的工具或配置解决问题。
SRE质量能力模型主要包括:软技能(合作、沟通、独立解决问题)、实践经验(IT运维、基础设施、安全等)、流程和框架(、敏捷等)、新技术( CICD工具、微服务等)升级和API)。
二、云为什么要走SRE之路
与传统业务相比,云业务有两个变化。运维对象和运维模式发生了本质变化。传统的运维模式已经不能满足要求,运维行业必须向SRE方向发展。
运维对象的四个变化:
1)传统产品办公室规模庞大,单个办公室规模有限。但是,单个云业务系统支持上千万台服务器;
2)传统IPD版本周期长达半年,模式为每1到4周一个版本;
3)云计算L0~L4栈复杂,系统整体可用性取决于全栈可用性;
4)运维的对象不是可以批量交付的成熟产品,而是微服务架构下不断演进的服务组件,各个行业的特点也会发生变化。
商业模式的变化导致运维模式的变化:
1)商业模式的变化导致运维职责边界的变化。传统模式是客服运维,厂家提供二线保障。现在需要负责端到端的可用性设计和1/2线运维。在这种模式下,仅仅依靠后端来保证可用性是不够的,还需要介入前端顶层架构设计。
2)传统模型只负责交付产品的可靠性,不需要考虑周边的可用性约束,但作为服务运营商,需要对服务的全栈可用性负责。
3)传统模式下,运维人员只是运维系统的用户,而现在除了用户之外,他们还是运维系统的建设者,SRE了解当前网络业务最能引领运维工具的设计和开发。
三、SRE 角色识别
不同于传统的运维工程师,SRE在服务生命周期中扮演着以下三个关键角色:
1)实时网络可用性的守护者。它是现有网络的所有者。保护现有网络的稳定性是 SRE 的首要职责。围绕现有网络的保障,将建立一套事前、事中、事后的SLA保障体系和能力。事前:监控预警、变更管理、容量管理、重大支持、应急演练等一系列业务活动。在事件中:事件管理、紧急恢复能力。事后:故障,分析现网数据,通过现网数据持续推动产品改进。SRE强调全栈、端到端的能力,是系统专家;
2)系统高可用性设计者。它是高可用性设计的所有者。它在联合产品开发中围绕SLI/SLO目标设计高可用服务,并将高可用软件架构和工程方法应用到产品中。SRE作为高可用性设计专家,参与产品设计和发布活动,利用系统和软件工程科学解决产品可用性问题;
3)运维软件工程能力建设者。用软件工程思维和方法管理现有网络,通过可信开发构建系统可用性和自动化能力。打造安全可靠的运维平台,构建自动化运维服务,支撑云服务的高可用,提升运维安全和效率。持续关注业务和技术的发展,引进和采用行业新的软件技术,引导系统的优化和演进,围绕运维的业务目标构建运维领域的技术竞争力.
四、SRE素质能力要求
与传统运维相比,SRE需要既懂开发又懂运维,能够端到端参与产品开发生命周期的全过程,围绕高可用和自动化建立四大关键能力。
1)编码能力是SRE的基本技能要求,强调软件和系统工程能力;
2)具有“软件工程”思维,具备站点和服务的高可用设计能力,将高可用架构和软件工程方法应用到产品开发过程中;
3)具备进行自动化研发的能力,使用自动化软件完成运维和系统高可用;
4)SRE 必须具备设计 SLI/SLO 系统的能力,并通过 SLO 明确衡量服务可用性。
同时,SRE应将现网优秀的实践经验整合到流程规范中,形成一套可复制的标准化运维体系。
点击关注,第一时间了解华为云新技术~
暂无评论内容