您的位置:首页 > 运维架构

Google SRE (DevOps)

2016-01-06 14:40 507 查看
Borg + Omega 两大平台
http://www.infoq.com/cn/presentations/experience-of-google-devops-landing-practice#anch131871
#Site Reliability Engineering (DevOps)

》Site

生产线管理、跟服务一起成长、最懂基础架构设施

》Reliability

SLO(Service Level Objective):make plan

人的贡献力量是有限的:利用自动化工具

救火队员与纵火队员,自己点火烧自己

选好服务上线的时间(避免人不在的时间段)

》Engineering

做工程师该做的事、对未来负责(计划)、报警系统重度(中毒)用户

#人力资源

》技能点偏系统段 (software + system) engineering

》重度强迫症与处女座 not accept doing thing over and over by hand "Ben Treynor" 人不能参与程序维护

》脸皮厚 DEV(more and more)与 OPS(say no) 的永恒冲突 (Eternal conflict) 归结为数字结论

#组织地位

BOSS ----

产品线(小boss、艺术类、开发团队) ----

生产线(业务性SRE、基础架构SRE、数据中心运营(每天都在处理问题)、供应链(供应商或自主制造))

hot-add cpu/memory

#SRE团队

》松散的学习型组织(以产品线为核心、松散的学习型组织)

》SRE要做什么、SRE说了算

PRR(Prodcution Readiness Review) 解决应用潜在问题

#项目早期活动

1.自动化建议(automating routine tasks)

2.points out errors,omissions in documents看开发者应用文档

3.长期愿景与目标

#项目成熟期活动

fixing known bugs (take turns and on-call)

#Deployment model

Following the sun

任何一个成员都可以解决问题,留下不能解决的问题文档

Redundancy everywhere:多做准备

#Maturity model

initial - repeatable - defined - managed - optimizing

#OPS Overload

1.避免复杂度过高(持续不断地降低系统复杂度-Reduce complexity)

2.No humans operating (世界只剩下你和电脑)

3.Quarterly Service Review (Provide career path:成长空间)

#SLO Budgeting

#Failures分类

>.安全生产指标

MTBF/MTTR

#Graceful degradation

1.Caching/Time shifting

2.Failover

3.Redundant Instances,N+@

4.Localization

#实战演练

#D.I.R.T

#POSTMOTERM 演练文档as lessons

1.纪录facts

2.Root cause

# 5 Whys

#Make Action Plan
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: