FWQ
云原生稳定性价值被低估?看头部金融企业稳定性保障法则!
云计算、大数据、人工智能、区块链等技术浪潮赋予金融科技创新源源不断的生命力,但与此同时,以数字经济为代表的新型经济形态也对传统金融业态和既有底层技术带来深刻变革和巨大挑战。 在国际形势复杂化的背景下,国家对安全可靠、自主可控技术提出了更高的要求。当前迫切需要的工作是加强金融行业信息系统的自主研发能力,减少对商业产品的依赖。 由于金融行业涉及民生,业务一旦出现问题,就会对整个社会舆论造成严重影响,因此,金融行业的系统稳定性保障尤为重要。然而,走向数字化的金融企业在业务方面存在不可预测、不可控、复杂性高等问题,这就给系统稳定性保障带来不小挑战。 那么,金融企业如何规划系统稳定性治理工作?如何利用云原生架构的特性和优势,来保障业务系统稳定性?近日,51CTO 采访了网易数帆云原生解决方案专家朱剑峰,携国有大行长期实践经验,为金融行业的系统稳定性建设献策支招。 金融行业云原生升级挑战多 随着近年来同业竞争加剧,各大金融机构纷纷追求金融服务个性化、场景化,欲打造开放金融,加之监管要求需要实现 IT 自主可控目标,金融企业从大单体总线架构进一步向微服务、云原生架构演进。 在近日举办的 WOT 全球技术创新大会上,来自银行、证券、保险等领域的多位科技部门负责人表示,云原生架构的落地不是一蹴而就的,需要在架构演进过程中,不断完善相关的能力与规范,形成企业的组织文化与技术体系。企业需要全面梳理、逐步演进,从周边到核心,先创新再传统。映射到金融企业,就是先从偏向互联网业务方向的敏态业务开始进行微服务拆分和云原生改造,进而再渗透到核心系统的稳态业务。 随着更多企业开始迁移到云原生架构,云原生的稳定性保障也越来越受到关注。企业在云原生稳定性保障方面也遇到了不小挑战。朱剑峰表示,金融企业在云原生稳定性保障方面主要有两大挑战。一类集中在系统韧性方面,在外部环境下,访问流量的变化会导致系统过载,应用高可用设计不达标,都会造成系统韧性不足;另一类在系统可观测性方面,由于系统可观测性不足,导致运维人员无法第一时间发现多样化的云服务风险故障,例如针对生产环境的操作变更(人为误操作、变更失败),代码编写的缺陷(代码质量、程序逻辑、应用架构等故障),以及业务依赖的平台硬件故障、网络故障等情况,无法快速发现并定位问题,最终造成业务损失。 所以,金融企业业务系统的关键演进方向是云原生技术底座。金融企业需要将云原⽣的特性应⽤在业务场景方面,增强传统云服务的观测性、应⽤韧性、⾼可⽤性、故障⾃愈等能⼒,从而消除不确定性,为业务系统带来额外保障。 云原生提供的稳定性价值被低估,国有大行已尝鲜 众所周知,传统运行环境偏向手工运维,更多依赖个人经验,一般很难做到标准化。而云原生架构的本质区别在于容器和容器编排调度的能力,容器化带来了运行应用的标准化环境,包括云原生环境下的监控告警、异常事件等数据也是以标准化的格式存放,再结合 K8s 技术提供的故障自愈以及实现自动化的运维技术,采用云原生技术建设的风险预测平台天然就拥有较为智能、自动化、标准的稳定性保障能力,也可以为传统虚拟机环境上的业务应用提供更为有效的工具平台。 然而,业界对于云原生的期待大多还聚焦于如何将业务迁移到云原生架构上。但这一迁移过程成本相对比较高,周期也较长,金融行业创新意愿强烈的头部客户固然已经在行动,尤其是一些技术实力强劲的国有大行,以基于云原生的稳定性保障为后盾,将分布式架构转型和核心业务小机下移的规划相结合推进落地,而更多技术储备不足的企业,往往处于观望状态。综合分析,朱剑峰认为,基于云原生架构能够额外提供的可观测性、故障自愈能力是被低估的。 朱剑峰表示,像容器、K8s、微服务平台以及稳定性平台属于工具类平台,是 PaaS 的云原生底座,这些技术工具平台拥有云原生的能力和优势,相比传统虚拟机和物理机可以进一步实现智能化能力,这也是大家没有太多感知到的。所以,在业务云原生化之前,企业不妨考虑将技术工具类平台迁移到云原生架构上,通过稳定性保障技术来反向为传统架构下的业务(包括稳态业务)进行赋能。事实上,与网易数帆合作的部分金融客户,在某些业务上也谨慎地采用了这样的策略。 系统稳定性保障三部曲事前降发生和事中降影响并重 墨菲定律指出,“凡是可能出错的事有很大概率会出错”,指的是任何一个事件,只要具有大于零的概率,就不能够假设它不会发生。这个定律的要义是,即使某件事情发生的概率很低,也不能轻视它,应该采取预防措施来防止产生不良影响。 那么,对于业务系统的稳定性保障,应该如何建设和完善呢?朱剑峰按照事件生命周期,将增强业务系统的稳定性风险保障能力的建设路径梳理为三部曲:事前提供风险预测,降低故障发生概率;事中通过故障感知自动根因分析快速止损,降低故障影响;事后完善故障改进追踪能力,实现稳定性建设目标。 事前阶段,通过风险预见和中间件巡检,结合全链路压测、混沌工程、引流回放在测试环境事先发现系统存在的可能风险,给出分析报告;同时,在生产环境定时巡检,及时发现生产环境可能存在的风险问题。事中阶段,通过立体化监控收集系统的深度指标,标准化数据让根因分析及时发现故障,并定位根因,给出分析报告,做到1分钟发现问题,5分钟定位问题。复盘过程中的事后阶段的主要目的是总结经验,并将事前和事中的一些经验归纳为专家规则库。 然而,如果企业的 IT…