您的位置:首页 > 运维架构

运维中心建设

2017-10-23 10:33 796 查看
【背景】

         目前正在部门内部推动运维管理,无论自上而下还是自下而上,整个团队必须统一认识、达成一致目标。

    项目的成功有来自高层的支持固然事半功倍,但是更重要的是实际使用者对系统、工具、流程、思想持续不断的改进优化。

           先从思想理念开始启发,让大家思考起来,整个ppt分,运维现状、解决办法、如何实现 。

    核心是整理数据,流程控制,发掘能力,输出服务。

一、运维现状

1.IT运维工作忙而不受重视

    忙:平台出现问题,基本都找运维处理;运维在各个业务部门间解决和处理问题,就像“救火员”、疲于奔命。即使这样运维人员的工作始终得不到认可,还经常抱怨“找不到人”、“解决问题太慢”。

    :苦活累活一直做,烦不了,做到后面瞎做了;有时候碍于面子,有些不符合规定的操作也做,不出事还好,出了事情只有自己默默抗;

    :每每提笔写周报时都不知道这周瞎忙了些啥,好不容易想到一个花费较大精力的事情,却又不好意思把这点鸡毛蒜皮的事情写上去;工作难以量化。

    盲:看不到明天会发生什么,等着出问题,好一点就等着收到告警;看不到明天会改变什么,这些都是开发说了算,运维没有话语权;看不到明天自己会是什么样子,没有目标。

   备注:忙而不盲,忙而不乱。

2.IT系统复杂,维护难度高,风险压力大

    物:硬软件不断增加,新技术的引入增加运维的复杂性,包括各类开发系统、各类应用架构、不同品牌厂商设备等等,需要不断增加人力投入,增加了维护难度。又有几个人能说起目前有多少资产、多少系统,它们之间的关联?

    人:拿着农民工的钱,操着中南海的心;敬业些的人整天提心吊胆,求神拜佛 保佑系统与业务不挂,还有些不知者不惧,等着出问题,出现问题后反而松了口气。

3.内部问题

    自我认可:大多数时候,运维人员都在进行着机械枯燥重复的工作,且很难得到肯定;

    流程串联:本是自家兄弟,沟通交流有障碍;

    数据失准 :实施了部分自动化,却没有真正解脱,无法判断手头信息是否真实可信,往往需要登录服务器再次确认;

    监控失信:千百条告警堆积无法判断问题真正的根源,甚至重要告警被忽略。

    PS:人员流动、职业前景、成就感、决策智能

二、运维管理解决办法

1.告诉所有人,运维是如何做事的

    运维做事也需要条件的,拒绝一句话需求;

    告诉大家谁在做,做到哪一步了;

    客观的以数据说话,告诉大家结果;

2.信息、状态可查可配可信任

    资产信息、系统信息……全部统一入库;

    设备、应用、服务……被监控可告警;

    出现问题能找到处理人、故障点、操作手册……;

3.建立维护中心的基础

    从原始人的体力劳动进入使用工具的石器时代;

    根据维护中心标准和流程来优化现有数据与工具;

三、服务意识

1.服务意识萌芽

    使自身掌握的资源与能力变为服务,向内部、外部提供这种服务。

    梳理整合自身的资源,再结合自身的能力,制定服务的标准,定义服务的内容。

2.何为服务

    系统资源服务

        1.硬件资源运算/存储/灾备等能力+技术(VM/HA等)=资源服务;

        2.用户提供:产品规划、 UV/PV 、存储/接口等需求;

        3.维护沟通评估提供:服务器(cpu、mem、disk)、带宽、ip等

        4.周期性报告:使用前测试报告、使用后状态报告、阶段的从业务角度分析服务运行报告。

    监控服务

        在提供监控能力后,需要后续的反馈监控的效果与各项指标,帮助需求方不断改进监控成效。

    安全服务

    查询服务

    等等

3.建立服务意识

    首先,了解自身能提供哪些能力与服务

        服务可大可小,要显现出各自岗位中的能力与价值;

    其次,服务需形成闭环

        服务并不是在操作完成后即结束,还需在之后统计与分析,找出其中的问题,体现服务的价值;

    最后,需不断改进

        改进服务本身;帮助用户/产品/部门提升;

    备注:个人觉得运维必须具有的两个意识:服务意识、安全意识

四、如何实现

1.选型:

    服务台-- OTRS、ITIL

    配置管理--CMDB

    自动化-- Puppet、Zabbix

    其他-- Wiki、GLPI、Hadoop、Data、Log、SOC

    ps:大家不用纠结使用什么工具或系统,主要是结合现在使用的、团员掌握熟练的进行优化、定标、整合。

2[b].配图[/b]

    



系统功能图





3.我们需要做什么

    梳理资源

      硬件、软件、应用等资源信息

    配置关系

      资源之间的关系,制定变更流程

    提升能力

      资源、技术、工具等提升能力

    输出服务

      能力+流程+分析=服务
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: