2004年,加州大学圣克鲁斯分校Sage Weil写下Ceph项目的第一行代码。此时的Ceph仅仅是他攻读博士期间的研究课题,却对日后大火的软件定义存储产生深远影响。
Ceph统一、分布式的设计理念,实现一套存储同时提供对象、块和文件多种存储服务,不仅满足不同应用的需求,极为简化存储的部署和运维,还让存储系统的扩展性和规模不再受到制约。这些理念让Ceph开源之后脱颖而出成为明星项目,更极大推动了软件定义存储的发展。
近年来借着云计算的东风,软件定义存储市场取得了长足进步,在互联网、云原生等大量新业务场景中获得用户青睐,更在很多关键业务场景中开始扮演着重要角色。哪怕是在去年多个行业受到疫情波及的背景下,软件定义存储市场依然显示出强劲的增长速度。根据IDC最新数据显示,中国软件定义存储市场2020年同比大幅增长51.7%,2019年同比增长46.8%,多家移动运营商对于软件定义存储的采购大单更是吸引大批眼球。
然而,喧嚣繁华的背后却透着一丝隐忧。软件定义存储走红多年之后,愈发获得用户认可,成为云化基础设施的重要选择;却也迎来了下一个关键的十字路口,大部分架构诞生于十余年前,修修补补多年,对于未来的应用趋势逐渐有点力不从心。
“软件定义存储的架构是时候重塑了。”ExponTech(华瑞指数云科技)CTO 曹羽中直言道。云数智驱动基础设施变革
云计算、大数据和人工智能正在深刻改变企业的基础设施。
云化基础设施已成大势所趋。去年,中国移动、中国电信等运营商5G核心网云化项目中,对于软件定义存储采购力度之大堪称惊人。同样的情况也发生在金融等行业,大型商业银行纷纷在进行分布式架构改造,加速实现基础设施的云化。
“在云化环境之中,不同种类业务在池化的资源池中拿到相匹配的资源。这种业务场景天然适合软件定义存储的分布式架构、软件定义、水平扩展、基于统一存储引擎向上提供多种接口等特性。”曹羽中介绍道,“这些新型的云化项目基本不太可能再选择传统存储去构建存储资源池。”
基础设施资源的池化,对于数据的利用大有好处,推动数据分析和AI等数据类应用落地。过去,企业的基础设施往往是以满足应用和流程为中心;新的趋势下,一切业务和应用都是围绕数据为中心。以如今银行的数字化营销为例,一个五一节假日的促销活动,往往包含线上和线下多营销渠道,与之匹配的是多样化复杂推荐体系和营销手段,需要针对各种数据进行多个业务模型的训练,以实现营销效果最优,带动老用户消费和挖掘潜客。
“以数据为中心将成为下一代基础设施的典型特征,未来的企业应用场景都是由数据驱动的。”曹羽中如是说,“如今很多基于大数据、人工智能技术的业务场景,从业务形态上更加强调动态、弹性和并发访问吞吐。”
面向未来,基于大数据、人工智能技术且由数据驱动的智慧应用将大量井喷,对于数据存储的需求将发生翻天覆地的变化,软件定义存储也将迎来了重要的节点,必须进化以跟上趋势。
在曹羽中看来,软件定义存储的架构开始加速走向变革,“一些开源项目,其架构在过去十年还是以小幅改进为主,缺少根本性变革。如果在架构层不做出改变,未来几年,软件定义存储将面临着更多棘手的挑战。”SDS2.0架构呼之欲出
软件定义存储在架构层之所以需要变革,在于如今的存储基础设施面临着远比过去复杂的环境。
这种复杂性主要集中在两个方向:向下如何适配愈发丰富且复杂的硬件环境,如何适配跨越混合多云和边缘的新IT环境,向上如何更好基于数据视角提供丰富的数据管理能力,形成统一的数据湖,乃至湖仓一体的平台,让企业的数据资源更好的支撑上层各种形态的,云化的业务应用,并催生更多的体现数据价值的数据类应用。
例如,在AI应用愈发丰富的趋势下,像GPU、傲腾持久级内存等硬件开始得到大量使用,很多用户都将面临着硬件环境复杂、数据存储层级增加等情况。对此,曹羽中表示:“软件定义存储的本质特征之一就是需要去适配复杂的环境,未来尤甚,包括多存储层级、数据流动、全生命周期管理等,也包括对诸如NVMe SSD,SCM,RDMA等新兴硬件和网络技术的支持,都需要软件定义存储在架构层有技术能力和勇气去做根本性变革。”
另一方面,混合多云环境正在成为很多企业的选择,企业基于混合多云的IT环境,构建起统一的数据湖成为一个重要的趋势。基于软件定义存储来构建企业数据湖会带来许多的好处:可以利用软件定义存储面向海量数据的能力,解决数据大规模存储和吞吐的问题,实现计算与存储完全分离,带来动态和弹性以及数据打通与共享;另外,可以集成各种数据管理、服务能力,更好的支撑起上层各种应用的需求。
“公有云巨头都在其大规模公有云平台上提供了智能数据湖相关方案,此类方案都有一个共同的特征:以大规模对象存储为基座,实现计算与存储的完全分离,再配合数据集成,数据管理,多样化的数据分析等相关能力来构建。对于积极推动数字化转型的企业客户,如果基于数据安全和监管考虑,不能够把全部的数据和应用都部署到公有云上去,就需要考虑在自己的数据中心(或者考虑跨越自有数据中心和多家公有云)来构建数据湖。在这种情况下,基于软件定义存储来构建企业数据湖将成为一个很自然的选择,而软件定义存储产品则需要向上为数据湖开放更多接口和能力,让数据湖的构建,管理和使用更加便捷。”曹羽中补充道。
如果说以Ceph为代表的开源系统或基于Ceph核心的商业化版本,代表着软件定义存储1.0(SDS1.0),那么下一代SDS2.0架构又将走向何方?本质上,SDS2.0肩负的使命已经不仅仅是数据存储,而是需要面向数字化和智能化时代,面向混合多云的新IT环境,帮助企业打造以数据为中心的下一代IT基础设施。在曹羽中看来,基于未来的趋势洞察,SDS2.0架构重点会朝着五个方向演进:
其一,支持端到端可组合式的架构,从数据感知,IO感知的角度组合整合分布式云环境(私有云、多个公有云,边缘)中的存储资源,提供不同IO模型,不同性能和可靠性要求以及许多种协议接口(SCSI, S3, POSIX, NFS, CIFS, CSI, HDFS等) 的自由组合及灵活部署, 可Scale-up,Scale-out任意扩展,一个数据平台、一份数据支持多样化业务负载;
其二,架构需要适应分布式云环境,一套软件堆栈覆盖公有云/私有云/边缘云多种场景,可以跨越数据中心,多朵公有云及边缘,实现数据的全透明化管理和调度,业务感知和业务视角下的数据流动,数据存储位置趋于透明,任意位置业务均可访问任意位置数据;
其三,架构与云原生环境适配,全容器化部署和微服务化管理,实现跨混合多云和边缘的极简部署,可编排式、敏捷地在云和边缘任意位置发放数据存储/服务,并且可以自适应策略式调度数据流动,完善适配和支持云原生应用;
其四,基于全新一代分布式存储引擎,实现对于新存储介质和新兴技术的完善支持,包括像适配SSD、SCM、NVMe-oF、RoCE等新介质或新技术,充分发挥这些新技术的能力,能适应海量数据存储和分析以及生产核心业务的要求;
其五,具有更全面的数据视角,而不仅仅是存储视角,通盘考量南向数据存储和北向数据服务,可通过组合式叠加服务组件的方式向数据湖,湖仓一体平台,混合多云数据平台无缝演进。
“基于过去十多年来我们在分布式存储,云计算等领域的工程经验,总结今天软件定义存储所存在的普遍问题以及对未来企业和社会数字化转型对数据基础设施的需求的洞察,我们决定结合业界最新的技术成果,打造新一代SDS2.0分布式存储引擎。”曹羽中透露道。
据悉,作为基于新一代分布式架构的数据基础设施解决方案提供商,ExponTech(华瑞指数云科技)初始目标就是构建由北向湖仓一体的数据平台和南向跨混合多云的下一代软件定义存储平台组成的混合多云数据平台,以致力于攻克大多数企业当前以及未来所面临的数据挑战。未来可期
伴随着企业和社会数字化转型驶入快车道,数据基础架构从传统存储到SDS1.0再到SDS2.0, 这样的平滑演进让企业客户能够快速应对“以数据为中心”的挑战,从而更加灵活高效的全局调度和使用业务数据,并从海量的数据中提取更多重要价值,为企业的业务创新和敏捷运营构建未来就绪的统一数据平台……