快看!三墩IT人自主研发的太空堡垒升空了!

 

三墩IT人自主研制的太空堡垒号顺利升空,请您收起小桌板,系好安全带,打开手机,体验一次畅快的云平台之旅!...

↑ 点击上方蓝色文字关注我们
五月,杭州,

初夏的阳光穿过云层,飞入西湖科技园区……

 “通报!通报!

.. 太空堡垒-反物质炮屡次发现并消灭了【XX系统】相关异常事件:

.. 维护人员在业务高峰时登录并对 XX_yyyymm 表进行全量未带条件的删除操作,

.. 违反了数据库安全使用条例!

.. 反物质炮自动判断该行为会对系统造成三级以上破坏,因此自动击毙!

.. 如有疑问请尽快联系云平台总控确认。”

 “收到!收到!”

三墩IT人在拍微电影?!

然而,并不是。

刚才的一幕回放的是,浙江移动云平台SRE通过“太空堡垒”,对异常事件进行快速处理的实战场景。

那么,问题来了,太空堡垒是个 what ???


有疑问,就请往下看吧!
01
堡垒升空……


浙江移动云平台建立以来,云平台服务对象与租户数量迅速增加,传统的监控、采集、配置等方式手段已无法满足当前云化服务需求。如何打破时间、空间的限制,使云平台上的各方,能够随时随地掌握云平台运行情况并迅速有效地对异常事件进行处理,这是当前面临的主要问题之一。

乘着移动互联网蓬勃发展之势,三墩IT人在大量调研的基础上,针对浙江移动云平台自身特点,并结合互联网思路,经过三个月的时间自主研究开发了高效、立体、多层次的可视化云平台智能运维APP工具——太空堡垒。霸气的名字,承载了三墩IT人对其寄予的厚望:有力提升云平台运行连续性与服务质量!

太空堡垒的自主研发试点和实际投产,是在企业TCO管理严控环境下云运维体系和管理平台建设模式的一次创新试点,对于IT团队培养全栈工程师、云运维团队的转型以及BOMC的建设模式的转型具有重大的前瞻性探索意义。
02
太空堡垒能干啥?


为向云平台运维人员和云平台租户提供监控和自动化运维智能平台,太空堡垒通过APP形式的可视化和使用便捷性来反向推动各云平台组件完善其监控运维能力。目前太空堡垒已具备云平台各组件的监控和容灾切换等运维操作功能,同时提供类似App Store的可嵌入模式将维护专家自行开发的监控运维能力进行接入。

A. 监控告警可视化,云租户随时随地掌握云平台运行情况

  • 运维人员、云平台租户随时随地了解云平台运行情况
  • 云平台租户可个性化定制监控指标
  • 全景化展示系统云平台的告警及性能曲线






B. 运筹帷幄,远程运维操作和自动化运维快速解决故障

  • 云平台运维人员随时随地进行日常的运维操作
  • 涉及重大操作管理人员可通过APP及时的进行远程审批
  • 实现随时随地容灾切换、域名切换、DCOS扩缩容、数据库会话自动查杀及数据库自动重启功能等自动化运维功能










C. App Store模式,提供运维专家开发接口贡献运维经验

  • 提供运维专家自行开发监控和自动化运维接口,将专家经验沉淀成自动化运维监控视图
  • 以业务视角进行业务和平台指标的聚合展现,各业务系统运行情况一目了然
  • App Store模式视图实现多层下钻及不同视角的数据展示




D.综合评分模式提供友好指标屏蔽技术指标复杂度

  • 云平台组件将系统指标综合化、以综合评分展示平台的健康度
  • 云平台租户通过综合评分能够快速知道云平台组件的健康状况,不需要了解组件技术指标的含义
  • 云平台维护人员可以看到更细粒度、多层多维度的细节数据






03
运行效果怎么样?


过内部测试、生产系统试点,直到云平台租户推广试用,太空堡垒表现出不俗的实力。短短两周时间,已接入用户XXX个,监控对象覆盖网络路由交换、负载均衡、服务器、DCOS、大数据、中间件应用容器、分布式缓存、分布式消息队列等各类云平台组件,先后成功预警XXX次,自动处理XX次。

这些成果只是一个起点,三墩IT人将持续优化并完善太空堡垒,努力将其打造成云平台运维的智能核心。
云平台构建虽艰辛而漫长,
三墩 IT 人众志成城在路上。




本文作者

戚靓亮    浙江移动系统管理员
移动改变生活,技术影响未来;我的三墩,我的IT。


SanDunIT
长按识别二维码,关注三墩IT人


    关注 三墩IT人


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册