这几个DevOps实践能让爆发式的业务不再是运维痛点?

2018-08-31   出处:InfoQ  作/译者:InfoQ  

面对百万台服务器、千万张网卡、海量的配置项和监控点,

怎么第一时间知道故障点在哪里?

如何快速判断分析当前故障的影响面和修复途径?

怎样在不影响业务的情况下快速修复?

也许你早就抛弃了 SSH 和 CLI 的方式去运维一套庞大的基础设施,开始尝试写一些自动化脚本和配置。或者已经搭建了一套自动化的监控平台,并在这条前行的路上不断的踩坑成长。面对这样一个充满挑战和机遇的方向,你不是一个人在战斗。QCon 上海 2018 为你召集了一批志同道合的同学,基于实际的项目和开发,分享在大规模基础设施 DevOps 领域的新思路,新架构,新技术。来了解最 in 的运维管理监控平台。


   Kafka Streams

如何运用流技术来设计和打造一个实时跟踪和监控系统?

PaloAlto Networks 高级研发经理粟海将来讲讲结合在 Palo Alto Networks Wildfire 云服务系统开发和运维中的一些痛点,如何进行技术选型,如何使用流技术(Kafka Streams)来计算和统计基于业务逻辑的系统运行状况,使用 Elasticsearch 来存储数据和查询历史数据,并通过定制化界面以及通用图形报表系统 Grafana 来展示实时统计数据和个体处理单元的跟踪结果。

你将收获

如何通过机器学习技术结合实时跟踪和监控系统来使整个运维系统智能化,减轻运维压力,快速定位和隔离故障节点,保证整体系统的高可用性。


下一代大数据实时监控系统

在大规模网络下,随着 gRPC 协议方式的采集的普及, 响应速度快,实时性高,采集数据更全面。如何将这些 gRPC 采集方式带来的众多优点不打折扣的提供给网络运维人员,给下一代的大数据实时监控系统带来了一定的挑战。

为此,阿里巴巴基础设施团队引入了一套基于流式计算(Blink 基于开源的 Apache Flink)和内存数据存储(Apache Ignite)方式的实时告警系统。借助 Kafka 和 HBase 实现数据缓存,Blink 进行流式计算,Ignite 进行实时的业务告警。并 Blink 的 SQL 方式进行实时计算和规则生成,通过 Ignite 开放 SQL 开发实现了数据的低延迟实时查询服务。本次分享将由阿里巴巴 Senior Engineer 李双江介绍阿里巴巴在以上方面的一些经验。

你将收获

了解如何设计一套更实时、满足多业务场景需求的大数据监控系统;

了解 Blink 和 Ignite 在大数据监控系统中的应用;

了解传统的 SQL 如何在整个系统中发挥作用,带来更大的灵活性和业务扩展性。


加速网络基础设施建设自动化进程

2017 年是超大规模互联网数据中心的一个里程碑,随着互联网内容以及高新技术以前所未有的速度增长,越来越多的超大规模互联网数据中心拔地而起来满足企业和用户的需要。网络基础设施可以说是上层服务的基石,没有网络,点对点的交流便无从说起。它好比是一个城市的公路网,没有公路,货物便无法从 A 送到 B。互联网数据中心网络的建设与运维往往被理解为独立于软件开发,而如今 DevOps 概念的引入改变了人们的想法,网络正朝着数字化的时代迈进。

本次演讲 Uber 网络工程师曹博将围绕超大规模数据中心的监测、管理为中心,通过介绍数据中心网络的设计,部署,运维,监测,修复等自动化架构来展现 Uber 如何时结合 DevOps 理念来加速网络基础设施建设的自动化进程。

业务的爆发式增长,让运维大规模基础设施成为了新的痛点。以上来自一线运维研发同学的分享是否对你有所帮助?



欢迎给测试窝投稿或参与内容翻译工作,请邮件至editors@testwo.com。也欢迎大家通过新浪微博(@测试窝)或微信公众号(测试窝)关注我们,并与我们的编辑和其他窝友交流。
145°|1451 人阅读|0 条评论

登录 后发表评论
最新文章