企业IT服务的反脆弱能力建设

泄露秘密 提交于 2020-02-28 14:32:48

一场突如其来的疫情让我的生活节奏慢了下来,有更多时间学习和思考,这两天有些想法一直在我的脑海中萦绕,现在整理成文字与大家分享。

 

纳西姆·塔勒布写过一本《反脆弱》,说的是如何应对不确定性,从不确定性中获利。IT是企业业务的核心支柱与保障,但IT服务的连续性如何保障呢?企业IT是否具有脆弱性?如何提升企业IT应对突发事件的能力?

 

 

总体而言,反脆弱能力建设的目标有以下几点:第一是系统健壮性建设,尽力降低内部和外部事件对系统的影响,确保系统的完整性不被破坏,企业的数字资产得到保护;第二是IT服务可用性建设,为服务对象提供不间断服务,以保障企业业务连续性;第三是系统可管理性建设,确保管理人员可随时执行系统管理任务,如策略管理、配置变更、故障响应和性能优化等。第四是系统持久性建设,即系统的技术升级和改造,基于即发事件的经验总结和潜在风险预测来改进系统。

 

鉴于企业IT的复杂性及个人能力所限,下面我将围绕四个关键组件来展开话题,他们分别是:应用的开发与运维,企业级网络与安全,云服务与平台建设,以及最终用户的服务体验。

 

第一节 应用的开发与运维

 

在与脆弱性的斗争中,应用的转型是非常积极且富有成效的。大家经常用“宠物”和“牲畜”来比喻传统企业应用和新型的云原生应用。“宠物”型应用无疑是脆弱的,非常依赖底层平台的呵护。转型为“牲畜”型应用就是为了反脆弱。云原生应用的设计原则中有几条与反脆弱有关,如无状态进程、快速启动和优雅终止、减少环境依赖等。

 

应用架构方面的反脆弱技术是微服务,服务与服务之间的松耦合设计可降低应用组件之间的相互依赖和影响。各个微服务团队的工作更加独立自主,可降低沟通与协作的开销,并提升敏捷性。但现有传统应用的微服务化改造难度很大,目前采用微服务架构的多是新应用。

 

应用开发模式方面的反脆弱技术是DevOps,DevOps可极大提高企业的应变能力,包括新功能的快速上线和补丁的即时交付,以快速响应新需求,解决新问题。以Docker和K8s为代表的容器技术,实现的是水平解耦,让应用与平台之间不再锁定,跨平台部署和迁移应用变得不再复杂。

 

生产环境中,应用的反脆弱能力更为重要,可靠性与安全性始终是生产系统的第一需求。鸡蛋不能都放在一个篮子里,于是分布式架构越来越流行。为了避免重复建设,控制管理复杂度,大企业IT曾走过一段集中建设路线,直到我们有了更好的方法。分布式部署与集中式管理的和谐统一让我们不必在鱼和熊掌之间做出选择,这种新的建设方式可同时提升企业应用的扩展性、可用性和访问性能。自愈能力是反脆弱的重要手段,声明式交付与运维可很好实现服务自愈,是应用标准化历程中的大进步,企业应用管理的不二法宝。

 

 

VMware为了更好地帮助企业用户实现应用转型,在这一领域做出了很多改变,连续收购了Heptio,Bitnami和Pivotal三家公司,并将现有产品与Kubernetes深度集成,以顺应市场需求的变化。

 

微服务相关的解决方案,除了Pivotal Lab的咨询服务,Spring开发框架,还有云计算网络产品家族中的新成员,NSX-Service Mesh,当前最流行的微服务网格,用于支持微服务的开发与治理。

 

在应用平台方面,Pivotal Application Service已经完成了与Docker和Kubernetes的集成,是一套功能全面的PaaS解决方案。用户还可以选择VMware PKS和Project Pacific,他们都是以Kubernetes编排调度技术为核心的新应用平台。能够帮助用户简化应用的管理和运维,提升服务质量,快速实现从命令式交付与运维到声明式交付与运维的转变。

 

Bitnami的软件封装技术可以将当前主流的开源工具和商业软件直接交付到云平台,为开发和运维人员提供开箱即用的云基础组件服务。Tanzu Mission Control可用来集中管理四处蔓延的容器集群环境,减轻IT管理人员在跨云管理容器平台和部署容器应用时的工作量。

 

要提升企业应用的开发、交付与运维效率,可以基于Pivotal Application Service来打造一套DevOps流程。也可以采用最新版的vRealize Automation,根据企业应用团队的需求来定制开发DevOps流水线,这种方案让用户在组件选择上拥有更大自由度。

 

第二节 企业级网络与安全

 

 

抗击新冠一类的传染病,最大的挑战就是人员的流动性。这让我想到了企业IT架构的演化,最早是终端与主机,后来是客户机与服务器,再后来是移动与云,最新兴起的是边缘智能,分分合合变化多端。当前的大趋势是分布越来越广,形态越来越多样化,流动性也越来越强。对于业务和用户而言,流动意味着生机与发展,意味着便利与灵活;但是对于服务管理者而言,则意味着不确定性和复杂性。如果流动性不可或缺,那我们就要努力解决流动性所带来的脆弱性。

 

与传统企业网络相比,云时代的企业网已经面目全非了。

 

1,何谓边界 流动性意味着负载不断穿越疆域,给治理带来很大麻烦。假设有一个户籍在湖北、工作在上海、休假在杭州的人,防控期间归谁管理呢?根据属地管理原则,人在哪个区域就归哪个区域管,这需要保证管理策略的一致性,也需要保证信息的及时同步。企业网络与这个例子相似,以前的网络环境相对独立,各自管理,仅有互联的部分需要协同。但是互联网和云打破了这一局面,物理边界正慢慢消失,内网和外网的定义也完全不同了。现在的边界变成了逻辑边界,与位置无关,与网络类型无关,与网络权属无关,只决定于负载。

 

2,怎样分层 SDN的目标是转控分离,也是分布式部署+集中式管控的思路,但SDN只负责解决网络自身的管理问题,虽然北向开放了接口,却不能为上层应用提供令人满意的服务。个人觉得按照流量与通路进行分层才是更好的方法。通路层重点关注传输的效率和质量,稳定性优先,可以由标准硬件实现;流量层重点关注服务和管控,灵活性优先,更适合软件实现。如公路、铁路、航线、车站、机场和码头等属于通路层;车辆、飞机、轮船及上面的负载属于流量层。疫情防控中的隔离策略就属于流量层的任务,目标是隔离病毒,切断传播。某些地方执行起来简单粗暴,直接挖断道路,就相当于把隔离手段用在了通路层,结果连救援工作也被阻断了。

 

3,如何变更 基于上述分层方法,我们就比较好理解网络的变更管理了。通路层的变更较少发生,大量的变更都发生在流量层。如果我们仍然采用传统的网络管理理念,由网络管理人员直接处理流量层的变更,定会造成管理瓶颈,效率和质量无法保证。一个客户的网管告诉我,他们的防火墙上有一千多条规则,也没有人清楚那些早期创建的规则用来防护什么,不敢删改,只能不断地往上叠加。网络的建设正从软件定义时代走向应用驱动时代,负载变化引发的变更需求不再交给管理人员手工处理,变为应用驱动之下的自动实现。应用上线时,网络开通、服务发布与安全防护都按照策略定义自动就绪;应用下线时,与之配套的变更被自动清除。是时候告别雪花式基础架构了,不可变基础设施的可管理性非常好。

 

 

如果说VMware这个网络新秀有什么过人之处,我觉得第一是没有历史包袱,创新无忧不手软;第二是非常了解云和应用的网络需求,可以将网络与相关的解决方案进行深度集成。VMware于2012年收购了Nicira,由此步入SDN领域,后来又通过一系列的并购(Arkin、Velocloud、AVI Network、Carbon Black等)和自研不断完善其网络与安全服务,八年磨一剑,虚拟云网络于去年闪亮登场。

 

下面介绍一下虚拟云网络产品家族的脾气秉性,如果你看完了还没有爱上他们,那我抓紧时间再写几篇。

 

1,软件定义云原生 VCN力图以软件的形式提供一切网络与安全服务,相对于硬件,软件交付的服务天生支持按需部署,自助服务等云特性。自动化水平高,敏捷性好,自愈能力强。如果你还是爱硬件多一些,那就买超融合吧,我们把网络功能预装在里面给到你。

 

2,功能全面万事通 除了基本的路由和交换能力,VCN还提供分布式防火墙与入侵防护,高级负载均衡(七层LB和全局LB),WEB应用防火墙,服务网格和软件定义广域网等功能。还可以集成第三方的网络与安全服务,花样满足你的有理要求。

 

3,内置安全无漏洞 无论是阻隔网络病毒,还是防范入侵者的横向渗透,我们都需要网络访问的精细化控制,特别是无盲区的东西向流量监控能力,而虚拟化层无疑是最佳监控点,VCN将分布式安全管控能力内嵌于虚拟化层,实现零信任,满足新等保什么的毫无压力。

 

4,广泛支持朋友众 VCN不仅支持vSphere,也支持其他虚拟化软件,支持裸金属系统,支持容器;不仅支持VMware的私有云,也支持所有主流的公有云平台,帮助用户打通多云环境,实现应用的跨云迁移。上一次讲到这里的时候我的客户小伙伴都惊呆了。

 

5,应用驱动真轻松 VCN内部的主要功能都提供了应用驱动接口,并与常见的应用和云管理方案如Kubernetes和vRealize Automation等实现了对接,可以自动响应来自云和应用的服务请求,管理人员只需定义和维护网络及安全策略。抱歉地说一声,可能要妨碍你赚加班费了。

 

6,可视监控显神通 VCN内置网络可视化与智能分析工具,帮助管理员洞悉企业网络环境明察秋毫,分析网络流量明辨是非,制定网络与安全策略明法正道。基于意图的网络服务,神奇之处就在这里,看到你脸上的微笑,我就知道你要掏钱采购了。

 

希望在家里关得要发霉你能喜欢我的行文风格,或者原谅我的调皮。如果想了解更多,请移步我同事何涛的公众号:企业云网络,他是我的老师,真正的网络大牛。

 

第三节 云服务与平台建设

 

码字码到这里有点累了,但是我太喜欢青轴的声音了,哒哒哒哒根本停不下来。第三节的内容让我有点兴奋。我之前看到过一些功能僵化的私有云,应对变化的能力不强,是反脆弱行动的重点关注对象。一部分人觉得私有云再怎么搞,也搞不出什么名堂,与公有云的差距很大;一部分人辛辛苦苦把云建起来了,却发现远没有达到预期的效果;也有一些云建完之后达到了预期效果,却发现平台的能力是固化的,建完之后无法提升,无法满足不断涌现的新需求,不得不另起炉灶重新来过。关于这个我还写过一篇文章:云之迷途:一次性云

 

 

先概括一下私有云的脆弱性所在。

 

1,重平台轻服务的建设理念 私有云的建设很多时候被理解为云管理平台(CMP)的建设,力求通过云平台来统一纳管计算、存储和网络等IT资源。主要的建设目标是企业服务门户和运维监控中心,服务的建设隶属于平台建设。这样比较容易明确需求,但也存在明显问题,仅仅依靠整合现有资源是无法满足企业创新和发展需求的,云的能力有限。这与公有云刚好相反,公有云的价值体现就是其所能提供的服务,平台与运维固然重要,但他们躲在服务后面,是用于保障服务的,与云的用户关系不大。

 

2,传统项目制的建设路线 企业IT建设一直采用项目制路线,不同的项目由不同的团队负责,有各自的目标、任务和周期,这样比较容易管理。但项目周期一般较长,敏捷性和灵活性不够好。对比一下应用开发,已经采用小步快跑的DevOps模式了。公有云服务的开发也是DevOps模式。大项目制的建设路线如果不进行优化和改变,私有云的发展就不能与业务与研发保持同步。此外,不同的项目之间会也相互依赖和影响,彼此形成制约,阻碍项目组对需求的变化快速做出响应,只能将新需求放到下期项目计划。

 

3,人才与能力是短板 私有云的需求复杂多样,无论选择开源产品还是商业产品,都需要较多的定制,考验供应商的产品成熟度和技术支持能力,也考验服务商或用户的定制、增强与开发能力。可喜的是,很多ISV和SI都开始发力MSP业务,企业客户也在积极组建自己的云架构师团队,但人才的培养和经验的积累需要时间。

 

 

基于上述情况,VMware中国团队与我们的合作伙伴一起倡导新的企业云战略,企业云2.0。以资源池化和交付流程自动化为目标的传统私有云已经无法满足用户需求,企业应该通过建云上云这一契机来打造数字化时代的创新引擎。首先,以云服务的形式体现IT能力,类似PaaS一类的需求完全可以通过整合相关的云服务来实现,不应该是一个独立存在;其次,要充分考虑研发与业务部门的需求,支持和促进他们的创新工作;再次,开发自建服务的同时,也可以通过整合公有云服务来扩展和补充私有云的短板;最后,要通过持续迭代的方式不断改进已有服务和能力,做到能力积淀,避免重复建设和投资浪费。

 

 

为了帮助企业客户实践企业云2.0战略,VMware与合作伙伴一起,打造出了完整的产品与服务。云平台上的服务设计与开发工作被高度简化,通过可视化设计,集成组件和嵌入脚本等一些简单操作,即可开发出满足企业所需的各种服务。下面我简述一下服务开发步骤:首先是服务组件准备,vRealize Automation内置了一些开箱即用的组件,也可以通过服务代理集成公有云,通过Bitnami的技术导入各种开源工具和企业应用,还可以利用编排工具集成其他IT管理工具,开发高级服务组件。然后利用这些组件设计服务蓝图,即服务模板,蓝图可以嵌套使用,加快服务的开发过程,减少重复性工作。如果企业需要DevOps一类的流程自动化能力,可以利用组件和蓝图来开发流水线。开发好的服务可随时发布到服务目录供用户使用。此外,企业可以通过服务市场来查找和导入他人维护和共享的服务蓝图。

 

最后补充两点,第一关于平台,服务存在于平台之上,因此平台的建设是一项基础工作,为了简化平台建设,VMware推出了Cloud Foundation套件,以高度自动化的方式来搭建和维护企业云平台。管理人员可以把更多精力放在服务建设上面。第二关于运维,运维工作的目标是保障服务质量,随着平台的不断扩展,工作量会持续增加,如果运维人员整天忙于处理事务性工作,就没有精力关注运维效率和运维质量的提升。因此,云平台的运维应该向自动化运维和无人运维转型,大量的运维工作交给自动化工具。可以参考Google出版的SRE书籍,我就不在这里多写了。

 

用一句话做个总结:平台是稳态,安全可靠是根本;服务是敏态,灵活多变最重要。

 

第四节 最终用户的服务体验

 

端侧的脆弱性比较独特,首先端侧如果出现问题,影响通常是局部的,所以端侧对可用性的要求不高。但是万物互联的今天,端侧的问题可能会通过网络迅速扩散开来,因此端侧的安全管控是非常重要的。所有的感染者都正确佩戴口罩,大家就会比较安全,但是这很难保证,还有未知感染者存在,于是人人都要戴口罩,口罩就供不应求了。

 

我在安全厂商工作的时候,觉得最麻烦的就是端侧安全防护,数量大、分布广、类型多、难管控。那个时候我们只关心个人计算机的管控,现在还要加上移动设备和物联网设备。这三类设备在管理上有很多共性,也有非常大的差异性。

 

个人计算机的管控技术已经相当完善和成熟,虽然新的安全风险不断出现,但都可以很快得到解决。远程通讯的安全性可以借力VPN,还有VDI技术可以实现桌面或应用的远程访问,便利又安全。疫情防控期间政府倡导企业组织员工在家远程办公,VDI远程桌面和视频会议系统一样大显神威。本周我们公司的中国同事都居家办公,管理员通过远程桌面访问数据中心管理平台,可以正常执行管理任务,远程桌面即是跳板机也是堡垒机。

 

移动设备的管控需要更多关注端侧软硬件环境的合规性与安全性,根据设备的类型(如专用或通用设备,配发或自带设备)制定管控策略。最复杂的是物联网设备的管控,目前业界还没有非常成熟的方案。

 

 

安全性固然是端侧重要的脆弱点,但不是全部,我们也不能为了安全性而牺牲便利性,牺牲用户体验,甚至牺牲业务能力。伴随着数字化转型的进程,端侧管理工作内容也在不断变化。

 

1,第一类面向载体,以设备为核心的安全防护,如防病毒、准入控制与远程接入、配置与补丁管理等方案,都是以保护设备和系统安全为目标的。用户更多是被动接受,安全防护在他们眼里是一个约束,一种保障,没有直接价值。

 

2,第二类面向主体,以人为核心的服务保障,如基于生物识别技术的身份验证与权限管理、个性化工作环境、跨设备跨地理位置的一致性服务等方案,都是为了方便工作,提高生产力。被动接受变为主动索求,安全防护慢慢隐形,大家开始享受新技术带来的良好体验。

 

3,第三类面向客体,以数据为核心的业务使能,如自动化的数据采集与智能分析、人机协作平台等方案。服务的对象扩展到了物,基于业务线和业务流实现端到端的信息服务与协同服务。主动索求变为重度依赖,安全性、可用性、便利性都变为基本需求,创新与发展才是大家真正关心的议题。

 

 

VMware目前主推的是Workspace One,桌面云及统一终端管理解决方案。它连接用户与计算环境,提供端到端的完整服务,如设备管理、身份管理、访问控制与安全传输等。当用户发起远程访问请求时,Workspace One首先对端侧设备进行安全分析,对设备是否可信,是否合规,是否位于安全区域等项目进行检查;再结合用户身份和访问对象来综合评估风险等级,进而选择适当的访问策略,判断应该采用何种方式鉴别用户身份,何种方式保护数据传输等等。生物识别、动态多因子、单点登录…这些技术在保证安全的同时又可以给用户带来非常好的体验。对比上面的端侧管理方案分类,Workspace One归属于第二类。

 

5G时代的到来无疑会加速物联网的发展,第三类端侧管理方案也将日趋流行,VMware推出了Pulse IoT Center物联网管理解决方案,Dimension边缘计算管理解决方案,通过收购Velocloud得到边缘网络解决方案SD-WAN。加上母公司DELL和众多合作伙伴的支持,这一部分的能力也日臻完善。

 

 

VMware联合合作伙伴一起为可口可乐打造了新型智能饮料贩售机管理系统,这是一个非常好的案例。系统主要由端侧管理(智能贩售机,数字化巡检与物料供应,移动应用等)与云侧分析(消费者行为分析、设备运营数据分析、业务分析等)两大部分组成。统一终端管理和云平台是这套系统的核心。根据投放之后的销售数据来看,降本增效成果显著,用户满意度也有较大提升。

 

2020开年并不轻松,地球上发生了数起黑天鹅事件,面对不确定性,快速响应的意义要大于防患未然。作为一个普通群众,戴口罩勤洗手少出门是我的责任;作为一名IT工程师,多学习多思考多分享也是我的责任,絮絮叨叨写了这么多,希望能够给大家一些启发和帮助。欢迎交流,共同进步,武汉加油,中国加油。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!