《混合云架构备受青睐,但是实施过程要避开哪些坑?》要点:
本文介绍了混合云架构备受青睐,但是实施过程要避开哪些坑?,希望对您有用。如果有疑问,可以联系我们。
混合云已经逐渐成为系统架构设计师的架构设计选择而变得越来越流行,为什么架构师会越来越多地选择混合云架构呢?
回答这个问题之前,我们先从公有云的优势入手进行逐步分析,现在各种企业都在越来越多地使用公有云了,使用公有云主要是基于以下几个需求:
现代企业的业务往往都需要IT基础设施快速响应业务的变化 ,公有云非常适合于快速应对流量突发增长的市场活动所带来的峰值.
现实中,为了支持市场活动等突发需求必须对于各个层次的资源都准备的匹配容量的资源,这无疑会增加整体成本,公有云按需付费恰好可以补足传统IDC的这个弱点.
传统的IDC扩容往往会遇到一系列因为服务器配置和环境差异导致的问题,公有云使用虚拟化技术恰好可以解决这些问题.
然而,公有云还有其无法解决的一些问题,正是这些问题导致架构师们不完全使用公有云,而是在一定程度上保留原来的IDC,这些问题点主要有:
一方面使用公有云可以降低IT系统的整体硬件和运维成本,这是它的优势,但是从另一方面来讲,从传统的IDC完全地迁移到公有云上是需要很大的迁移成本的,这包括为了适应公有云平台而对系统进行改造的人工成本,平滑迁移的时间成本,尤其是对于复杂系统来讲,这些改造、迁移成本是非常高的.
不可否认的是有些时候公有云会出现问题,那么架构师就有必要把这种稳定性问题导致的数据安全问题考虑在内;另外一方面,某些企业对于核心数据不希望完全托付给公有云,不希望被公有云完全绑定,这也是很正常的需求.
某些特殊软件系统是软硬件配合的,如某些行业的硬件加密系统,其软件依赖于USB、串口等连接的特殊硬件来运行,而公有云的是不可能让客户连接这些硬件的.再比如许多企业使用范围较广的基于共享存储的ORACLE集群系统RAC、基于共享存储的SAP等企业中常用的需要存储系统的软件,在公有云上还没有非常成熟的解决方案.
对于某些行业来讲,数据或内容是在线下集中产生的,如拍摄现场、生产车间等场景下,数据产生之后希望可以使用公有云的计算能力、分发能力等,这时候只使用IDC或者只使用公有云都无法实现优雅的系统架构.
正是由于上面所述的各种问题,架构师正在越来越多地采用混合云架构模式.我们把混合云架构定义为:公有云+IDC.混合云架构,既可以充分利用公有云的弹性计算、按需计费的特点,将前台应用相关的计算、缓存节点迁移到公有云上,同时把不适合于公有云的系统核心组件保留在IDC中.
迁移成本方面,可以换取架构变更的时间缓冲,留待系统重构的时候再进行架构变更,而又可以立即享用公有云的优势;我的一个客户,想要把系统平台迁移到公有云上,需要考虑尽量不影响业务的状况下进行迁移,但是累积历史数据量比较大,但是公共互联网的传输速度往往没法保证,在没有高质量的网络通道的状况下很难进行大批量的数据迁移.
数据安全方面,把核心数据留在IDC中,以保障核心数据的安全,只把需要弹性计算的组件放到公有云中;在过去两年当中,几乎所有的公有云都出现过大规模的故障,这也逼着系统架构师在进行系统架构设计的时候,必须要考虑公有云的容灾问题,而服务器端应用和数据库之间必然要求有高质量的通道才能支持正常运行.因此很多企业希望把数据库等核心系统组件留在原来自己的数据中心里,用自己的物理服务器来运行,这样也可以更好地支持容灾切换.
特殊硬件方面,把需要连接特殊硬件的服务器放置在IDC中,前端的软件系统虽然运行在公有云中但是依然可以通过API等服务使用这种组件.我的一个客户是一套高安全要求的软件系统,它依赖于是一种硬件加密狗插在服务器上才能运行,公有云上就无法支持这种模型,所以该客户只好保持原来的数据中心服务器,而把前端服务器迁移到公有云,这时候就必然要求前端服务器和加密服务器之间有高质量的可靠的连接通道.
一个客户是现场拍摄产生大量数据内容,使用公有云的计算资源进行渲染,并使用公有云的CDN资源进行分发.这也要求在现场和公有云间有大容量的、有带宽保证的传输通道.由此可见,混合云在企业上云的过程中是一种非常有意义的架构,它可以在一定程度上让企业同时使用公有云的优势,又拥有传统IDC的特点,不但拥有公有云弹性计算、峰值灵活扩展的特点,同时具备核心数据安全、可以使用特殊硬件的特点.
混合云架构虽好,但是在实施过程中却也有不少需要注意的问题,公有云+IDC的混合云架构要想顺畅地使用就必须要有高速可靠的网络连接,可以说,高速可靠的网络连接是成功实施混合云的最重要的保障之一,否则会引发各种的应用故障.混合云架构所需要的网络连接,行业里面又有两种不同的实现模型:一是使用公共internet来进行互联,另外一个是使用专线网络来进行互联.
使用公共internet进行互联一般都会配合ipsec vpn等虚拟私有专网技术来使用,否则会遇到极大的安全隐患.但是只要使用公共internet的方式,不管是否使用ipsec等vpn技术,几乎肯定都会遇到的问题是,公共internet会在网络使用高峰时产生拥塞,这时候就会出现带宽不足、延时增大的问题.因此通过公共internet互联来实现混合云的网络连接的方式是无法可靠地保障混合云软件系统的带宽需求和延时需求的.
另外一种使用专线网络进行互联的方式是现在企业进行混合云架构设计的主要模型.这种架构是必须要求公有云服务商给予支持的,否则用户无法独立完成连接到用户的公有云中的私有网络,自然就无法实施混合云.值得高兴的是现在市面上大多数的著名公有云服务厂商都提供了类似的支持.各大公有云厂商对其产品的有不同命名,像阿里云叫高速通道,腾讯云叫专线接入(DC/direct connect),AWS叫做AWS direct connect,Microsoft Asure叫做Asure ExpressRoute,其它的云服务商有些有公开的产品定义,有些还没有.不管叫什么名称,这些产品的本质都是为了最终实现混合云的专线网络连接.
这些公有云的厂商在帮助客户实施混合云的时候,一般只是负责网络连接进入公有云的界限之后的问题,另外一个端点也就是在IDC内部,大多数情况下企业是会自建私网的,自然也可以管理自己的私网.在IDC和公有云互联的整个链路上,它们两者的外面一般是由第三方运营商来负责实施,这个互联链路,有时候是同城的,有时候是跨省市甚至是跨国的.这时候网络质量就是衡量这种专线网络的重要要素.
使用专线网络连接,最主要的就是两个方面的保障:一是延时方面的保障,二是带宽方面的保障,这两者对于大多数主要关注IDC内部应用架构的架构师往往意识不到它们的重要性.Tcp/ip的基础是路由器,所有的路由器都是基于存储转发模式的,正是由于这个基本原理,所以就决定了internet必然会发生抖动、波动.对于最终用户的服务问题影响不是太大,无非是刷新一下、重试一下就可以解决了,但是对于服务器中运行的服务端应用程序之间的互相访问就是非常严重的问题了,因为它们往往都是对于延时抖动很敏感的,而延时抖动又会直接影响TCP协议的速度.
我就曾经在客户实施混合云的时候遇到了因为延时和流控问题而产生的cifs(文件共享协议)速度无法稳定高速,表现为远程拷贝的速度忽上忽下,无法达到要求,进而导致混合云实施失败的问题,最后不得不更改成完全使用犀思云提供的专线通道,就拷贝速度几乎总是可以达到理论最高速度.
犀思云构建了CXP云交换平台,混合云服务通过云交换平台所连接的公有云,数据中心以及云交换平台本身提供的DCI、ECI等网络连接服务,可以帮助企业轻松快速搭建自己所需要的混合云架构;包括两地三中心、公有云加物理服务器托管、公有云加企业私有云、公有云加托管云、公有云加裸机云等.
架构图如下:
云交换平台基于物理光缆和DWDM技术构建的全球专网,可最大程度的保障网络最低延迟和高稳定性,同时不受网络高峰时段影响,为企业提供持续稳定的网络服务保障.基于MPLS技术,将网络多重隔离加密,使每用户网络独立且互不影响,并且支持多级别SLA选择.
与话题无关,对于成规模的系统运维,最关键的一点是:自动化和标准化,想尽一切办法地去把运维工作自动化和标准化.比如应用部署、应用监控等都有大量的实践进行自动化和标准化.比如,Docker为什么这几年这么火热,就是因为这是一种可以让部署自动化和标准化的技术.
监控是运维工作中非常重要的一个工作,有基础设施监控,也有业务监控,但是由于每家公司的业务都有其不一样的地方,所以很难有完全适合于所有公司的全链监控方案,对于基础设施监控方面,有传统的nagios、zabbix等,也有openfalcon等新一代的监控方案,更多地需要各公司自行研发.犀思云的业务监控系统也是基于自己的需求基于开源监控系统做了大量的研发.
1医网,犀思云为其提供从上海某数据中心连接到阿里云上海区的网络连接服务,数据库等核心组件运行在数据中心的服务器中,扩展性的前端服务运行在阿里云里.京东、七牛云等,等犀思云为其提供了多个数据中心的互联链路,带宽达数十G.
犀思云会开放业务的自助化服务和API接口,已经提供监控、告警、测速等服务.犀思云连接了国内大公有云服务商(例如阿里云、腾讯云、百度云、华为云、金山云、UCloud);以及全国的数十家T3+数据中心,在此基础上持续覆盖,犀思云未来会开放技术开放的平台,让有技术能力的公司和个人作为卖方提供混合云的能力输出.
对于数据保密有极其严苛的要求,对于可靠性有极其严苛的要求,不需要对计算能力进行弹性扩展的企业不适合于公有云+私有云.
基于对客户的需求调研及上云遇到的问题,我们认为混合云一定会长久存在.主要就是因为前面说的,纯粹公有云所遇到的问题,是不太可能在短期内消失的.
网络的抖动产生的根本原因是链路的变化,所谓链路的变化包括链路上的带宽拥塞,也包括链路上设备的负载变化,这些因素与延时的增加交织在一起就会产生明显的网络抖动.对于TCP协议来讲,它的带宽是协商出来,而抖动就会非常明显地影响TCP的带宽.
这个问题更多的是软件系统架构的问题,软件系统架构是基于基础设施架构的,在一个可靠的基础设施架构之上,软件架构才有依托.业务切换和灾备正是混合云所要实现的目标,至于具体如何实现是需要根据每家公司的软件架构进行确定,一般都离不开数据库的复制技术(ORACLE/MYSQL都有)、前端控制导流技术(LOADBALANCE/DNS/HTTPDNS)多云接入,我们现在已经不少客户提供了解决方案.API现在还没有开发,计划今年内会提供一定的API开放.
不同的云服务厂商在安全方面差异很大,防DDOS必须的两个前提:1、足够大的带宽;2、高效的流量清洗(不正常流量的筛选).所以对于不同的厂商还是得实际地用过才知道,据我们所知,现在有第三方厂商正在计划把高防DDOS业务作为一种服务来提供,犀思云也计划依托于自身的网络优势整合这方面的服务,相信以后普通用户也可以享受到高防服务.VPC权限控制主要依托于每个厂商对于帐号、权限方面的产品需求的分析和定位.
犀思云不提供以计算和存储为主要目标的大规模的云服务,所以不太涉及虚拟化相关的热补丁等问题.
犀思云的专线通道不是基于公共互联网的传输服务,而是基于物理光纤等专线网络的私有网络通道,所以不涉及到DNS等,可以理解为一个跨数据中心、企业、云的大范围局域网.
需要,我们的服务就是基于专线的,所幸我们接入了很多的数据中心,所以对于客户来讲,如果恰好用了合作的数据中心,就不需要额外地架设专线了.
王正艳,犀思云计算科技有限公司CTO,负责技术团队管理工作及公司CXP平台架构设计、开发等工作.上海交通大学计算机科学与技术专业工学学士,华东理工大学工商管理硕士.从事研发管理工作十余年,对技术研发管理有一定的心得,对于SDN、大型分布式系统等领域有浓厚的兴趣和丰富的实践经验.
文章来自微信公众号:高效开发运维
转载请注明本页网址:
http://www.vephp.com/jiaocheng/4207.html