咯吱电子商务论坛 首页 网店运营 查看内容

【干货】聚美优品监控系统实践之路

2016-7-29 14:16| 发布者: nawawa001| 查看: 360| 评论: 0|原作者: 中国网

摘要: 电商行业在中国已经走过很多年头,却依然没有停下迅猛发展的脚步,其中一些垂直领域的前景和市场仍然可观,例如化妆品电商。作为女性的“必需品”,网购化妆品市场规模一直都在保持增长,作为国内较早成立并且首个赴 ...

电商行业在中国已经走过很多年头,却依然没有停下迅猛发展的脚步,其中一些垂直领域的前景和市场仍然可观,例如化妆品电商。作为女性的“必需品”,网购化妆品市场规模一直都在保持增长,作为国内较早成立并且首个赴美上市的垂直化妆品电商,聚美优品可能经历整个市场的不断进化,然而对这种变革感触最深的,恐怕要数聚美优品的运维工程师们。

60亿,只是开始

2013年时,聚美优品已经成立有3年之久,在这一年,他的全年销售额突破60亿元,这是个很高的数字,然而在聚美优品级运维工程师崔星眼里,这只是个开始。他回忆到,在2013年聚美优品的监控规模还小于200台,监控指标只有不到5000个,而这个数量在短短一年之内增加1000台、五万个指标,当大家都认为这个发展会放缓时,直到今日,聚美优品监控的指标已经超过了五十万个,架构也从最初的Nagios+Ganglia变为了如今的Zabbix+CMDB。

这样的改变是如何发生的?在早期,聚美优品遇到遇到过很多的问题:

1、监控系统自身水平扩展能力差:没有使用登录式,水平拓展也不是很好

2、不利于自动化:指标更新很复杂,配置一个指标,要更改指标项目,监控项目,这时候需要通过工具批量执行

3、告警策略的维护:变更代价太大

4、监控指标展示不太直观

5、数据采集也不统一

…………

随着公司业务发展的变迁,为了解决问题,聚美优品意识到必须打造一个优秀的监控系统,而这个监控系统应具备的这样的条件:

强大的数据采集

高效的告警策略

个性化的告警设置

多维度的数据展示

可水平扩展

最终,聚美优品找到一种新思路,CMDB+Zabbix,满足优秀监控所具备的条件,最终成为自己开发的运维开发平台。

在路上,全新的监控平台

我们先来看一下聚美这套全新的监控平台的体系架构图:

聚美优品监控系统实践之路

从图中,我们可以看到有很多亮点:

数据采集:agent自动发现, 主动推送模式

分布式监控: 监控proxy可持续水平扩展

告警策略人性化:递延报警,报警暂停,按时段发送不同类型告警

Dashboard: 多维度数据展示,Top指标对比等功能

自动管理: 自动清除下限机器,自动更新项目类型

数据采集

在数据采集方面,基础采集项全部采用自动发现,无需配置,实时从CMDB抓取项目、环境、状况等相关信息。拿到这些信息之后,再注册到Server上面去,Server有相关的一系列匹配。与此同时,采用主动模式上报监控数据,大幅度减轻监控Server端的压力。最后再禁用远程命令调用,保证安全高效。

告警

针对告警聚美优品做了很多的优化和设置:

支持维护周期设置:想告警几天就设置告警几天,如果不想监控,可以永久关闭;如果某台机器凌晨五点不想告警的话,可以在这段时间进行关闭。

自定义告警类型:可以通过短信或者邮件告知。

告警列表:可以知道究竟有哪些告警现在没有消除,持续了多长时间,可以作为常规的考核可以是看持续性问题的观察。

告警分析:通过一些定义很严重的告警,分很多等级,不同的等级可以发送给运维人员。

告警递延:第一次告警是运维人员,如果运维人员半个小时之后没有处理,告警信息会上报给开发人员或者是部门主管。

支持告警恢复通知

聚美优品监控系统实践之路

上面这张就是聚美优品的告警周期维护的截图,我们可以看出设置告警的时间,一些指标的查看,问题处理的时候,持续周期,警告时间,运维人员等一系列内容,都可以通过告警列表去知晓。

  • 123下一页

鲜花

握手

雷人

路过

鸡蛋
收藏 邀请

最新评论

关闭

站长推荐上一条 /1 下一条

返回顶部联系客服点此关注
联系我们
关于我们
广告招商
联系我们
帮助中心
学院公告
发帖规则
意见反馈
服务支持
资源下载
最新帖子
隐私申明
关注我们
官方微博
官方空间
官方微信