软件定义时代,存储行业的“百家争鸣”(上)
全球软件定义存储市场年复合增长率逐渐上升,市场规模逐渐扩大,并且将持续保持高速增长,其中北美仍是软件定义存储的主要市场,全行业都表现为软件定义存储的发展趋势,呈现出“百家争鸣”的格局。这篇文章就让我们一起来深入了解一下存储行业的软件定义时代吧。
数据容量的持续增加、应用场景的不断丰富、AI的渗透,是存储行业长久增长的核心驱动。
具体来说,存储的发展涉及到硬件介质、通信、传输、协议、接口、软件等组成部分的持续演进,其中,针对海量数据存储要求的大容量、高性能、智能化处理,为软件厂商带来更多竞争角度和机会;软件定义存储,一方面是定义功能,另一方面是定义性能,既有面向硬件的持续优化,也有面向场景的无限延伸,因此从供给来看,厂商也呈现出“百家争鸣”的格局。
在此格局之下,“小场景,大行业”的差异化竞争策略成为重要的路线选择,为未来增长和竞争持续助力。
本报告由势乘资本和光锥智能联合发布,目录如下:
核心观点:
1. 存储技术从介质、传输、协议、接口、软件等呈现持续快速迭代的趋势,每个构成部分的发展速度不一,数据孤岛、烟囱式扩容、被硬件厂商绑定带来的成本高企等成为大数据量企业格外显著的痛点,稳定性、扩展性、成本、与业务时效要求相匹配的性能都成为客户的选型指标,针对历史体量和增量的数据需求,以及被硬件厂商持续绑定的局面,给软件定义与超融合带来持续的机会。
存储整体技术革新方向:
2. 极致成本与极致性能是典型的业务走向,全面闪存化大势所趋,深刻影响分布式存储的技术方向。
3. 存储与PaaS层连接紧密,市场集中度高,如华为拥有背景、行业沉淀和生态,在获客能力和生态合作上拥有绝对优势,初创厂商要生存,需要找到和巨头竞争的点。
4. 软件定义细分的技术方向不同,适用的场景和各自优势不同,细分技术适用性+场景需求匹配可以驱动厂商快速增长;基于开源技术的迭代和优化,工程化及软件成熟度有一定保证,相当于站在巨人的肩膀上,对于研发进度、交付成本等的优化会更好,因此起量会相对较快。
5. 竞争激烈将导致毛利率下降,产品化程度需要高或者面向行业找到核心抓手,守住自身护城河;但同时收入增长快、毛利率下降的现状也同时说明产业在快速增长和竞争。
a.基础要求:稳定性、可靠性、性能、易用性。
6. 初创厂商鲇鱼效应:现阶段传统存储基于传统架构的强绑定销售是增收的来源,软件定义存储带来的格局重塑倒逼巨头的布局,因此会根据市场动态调整自身策略;初创厂商没有历史包袱,因此可以大力创新。
7. 数据智能时代需要厂商具备全生命周期的赋能,需要持续迭代功能,面向创新需要更加开放;比如图像识别、挖掘学习、私有云、容器等新技术的场景。
a.数据的生命周期分为采集、传输、存储、处理、交换和销毁六个阶段,在各个阶段对于核心技术能力诉求不一,但客户以一般以整体需求为导向,因此需要一定程度的外围组件研发工作和流程上的延伸。
8. 厂商需面向客户持续提供核心价值:可靠性-丢包、断掉、读取;性能;丰富的功能:可以存什么东西,匹配什么场景,具备什么功能,用户有自身选择;新兴初创厂商取胜关键唯有创新,但是持续研发和迭代无止境,基于标准化和通用化场景的研发亏损巨大。
9. 初创厂商基于创新的发展道路短期无法盈亏平衡,需要在收入和产品上给予更多关注,如客户场景不能测试,唯有依靠自身部署机器测试,采购+测试+研发+交付,整体成本高昂,带给存储厂商现金流和亏损压力,融资要跟上;要配置研发的团队,有标准的内部测试流程和外部获客策略,积累足够的测试用例是产品自信的有效途径。
a.发展路径:高度产品化、可靠的方案、长期的价值、具备可挖掘的能力。
10. 软件成长之路依靠巨大资金投入与人力投入,以及周期,性能和功能优化是系统工程,软件可以克服硬件的边界,丰富功能和应用,但是软件功能完整、成熟,私有云普及之前,依然要依靠高性能介质硬件等,因此SSD和新一代存储介质目前依然会快速增长,性能和方案稳定等的保证方面,主控芯片仍然会占主流。但与此同时,存储层面需求总体来说较为简单,软件的优势在于可以持续做渐进式的演变,叠加功能和方案,集成硬件出货,因此起量比其他infra公司会更有保证。
一、海量数据+丰富场景是长久驱动
(一)数据规模扩大引起存储扩容的需求
据互联网数据中心(IDC)预测,全球数据量将从2018年的33ZB增至2025年的175ZB,增长超过5倍;中国平均增速快于全球3%,预计到2025年将增至48.6ZB,占全球数据量的比例由23.4%提升至27.8%。其中,中国企业级数据量将从2015年占中国数据量的49%增长到2025年的69%。
(二)非结构化数据成为数据增长主流
互联网兴起,数据创造的主体由企业逐渐转向个人用户,个人所产生的绝大部分数据均为图片、文档、视频等非结构化数据,企业办公流程更多通过网络实现,表单、票据等都实现了以非结构化为主的数字化存档。到2023年,中国的数据量超过80%是非结构化数据,成为数据主流。
场景创新带来更多业务数据,比如自动驾驶、超高清、IOT等业务场景将带来更多数据;以大视频、备份归档为代表的业务,数据量大,价值密度相对较低,发展趋势为高密度、低成本介质,追求极致成本与极致性能是典型的业务走向;以自动驾驶为例,研发过程中,每一辆测试车辆每天产生的数据在10TB到64TB之间,而这些数据需要在24小时之内完成分析,并且研发过程累积的数百PB数据需要保存30年以上。
(三)数据存储的要求:长期保存、持久化保存、分门别类地治理。
数据分析和处理产生的倍增数据存储需求;随着数据大集中、数据挖掘、商业智能、协同作业等大数据处理技术的日趋成熟,数据价值呈指数上升趋势。
资料来源:HGST
大数据技术发展变革,随数据量增长与分析的需求,伴随更多的技术演进趋势与公司出现。
资料来源:中国信通院
(四)自主可控相关政策将驱动2023-2027年存储行业高增长
2022年,9月底下发的79号文,全面指导国资信创产业发展和进度,要求所有央企+地方国企落实信创全替代,受益于信创概念,市场普遍认为,未来五年是“大信创”发展的关键时期,发展空间广阔。
79号文的核心内容归纳如下:
- 全面替换(OA、门户、邮箱、纪检、党建、档案管理);
- 应替就替(战略决策、ERP、风控管理、CRM经营管理系统);
- 能替就替(生产制造、研发系统);
- 2027年100%完成。
信创为全产业链厂商带来发展机遇;硬件、软件、安全均为企业整体替换方案的重要组成。
数据来源:众诚智库、天风证券
二、存储重要性阐述:存储系统是IT系统中的核心
数据智能时代,数据存储的三大需求:EB级容量、亿级IOPS(每秒进行读写操作的次数,Input/Output Operations Per Second)和智能管理。
- 存储是计算和通信的起点。存储系统的稳定性将影响到整个业务系统的正常运营,存储系统如出现数据丢失、宕机将对业务系统连续性产生致命影响。
- 存储系统的性能将影响到整个业务系统的效率,存储系统的读取速度将决定数据存储与提取效率,直接影响业务系统的效率。
- 存储系统的扩展能力将决定整个业务系统的扩展性,随着大数据时代到来,数据量爆发也对存储系统的可扩展性提出了更高要求,扩展能力将成为存储设备能够支撑数据生产型业务的必要指标之一。
三、存储系统构成
(一)存储部件-硬件
1.存储介质:
依据存储介质不同,存储系统可分为磁盘存储、全闪存储、混闪存储、磁带库、光盘库等。最常见的是以HDD和SSD为介质的存储系统。HDD为磁头、磁盘、马达组成的机械结构,SSD主要以闪存为存储介质。
(1)存储介质性能衡量基准:存储性能委员会(SPC)的SPC-1基准。
(2)全闪存储为存储行业的技术发展方向:更低的时延、更低的功耗、更低的故障率。
(3)SSD固态硬盘结构及功能:
资料来源:华西证券
全闪存储(AFA):指全部以固态硬盘为永久存储介质的存储;全闪存储性能优异,但价格也较高,同时呈现连年下降趋势。
- SSD需要高性能,定制化需求提升;客户特殊需求体现在固件和控制器上。
- 前期普及的闪存主要应用于核心业务场景,提升业务响应效率。
- SSD其他相关厂商:得一微电子、国科微、联芸科技、点序科技、忆芯科技、英韧等。
混闪存储(HFA):指永久存储介质同时含有磁盘和闪存盘的存储;与全闪存储相比,混闪存储在性能和价格上进行了一定折中。
磁带库和光盘库:指以磁带或光盘为存储介质,由驱动器及其控制器组成的存储设备;单位存储空间
价格较低,支持冷数据的长期保存,但读写性能不高。
EDSFF(Enterprise&Data Center SSD Form Factor,企业和数据中心固态硬盘规格)以高密度、易管理、高效率的优势成为固态硬盘外观发展的新趋势。EDSFF 是面向云服务、企业数据中心的NVMe SSD新形态标准,与传统SSD相比具备高吞吐、低延迟、强扩展性的特性。同时在性能、散热、功耗等方面都做统一的改进,更易适用于大容量、高密度的全闪存储阵列。
(1)2020年Q1-Q3中国存储市场中全闪存储占比18.2%,且全闪存存储的增速较快,较2019年Q1-Q3同比增长20%。
(二)接口&协议
1.带宽增加,延时降低,高性能和低延时需求促使NVMe协议应运而生。
早期HDD属于慢速设备,具有顺序读写的特点,主机和HDD和早期SSD之间通过单队列进行数据交互,传输协议一般采用AHCI(高级主机控制器接口,Advanced Host Controller Interface)。
随着存储介质的演进,SSD可以同时从多个不同位置读取数据,具有高并发性,SSD盘的IO带宽越来越大,访问延时越来越低。AHCI协议已经不能满足高性能和低延时SSD的需求,因此,存储系统迫切需要更快、更高效的协议和接口,NVMe(NVM Express)协议应运而生。
- NVMe协议具备高吞吐、高IOPS以及低延迟的优势。在吞吐量方面,基于NVMe的驱动器的吞吐量可实现高达16Gbps,未来32Gbps或更高吞吐量产品的应用将成为未来发展的主流趋势。
- 在IO方面,许多基于NVMe的驱动器,其IOPS可以超过50万,部分可提供150万、200万甚至1000万IOPS。在低延时方面,许多驱动器的延迟低于20微秒,部分低于10微秒。因此,NVMe SSD凭借卓越的性能,在2018到2023年之间以38%的复合增长率加速增长,成为云客户、OEM厂商和企业存储数据的首选设备。
- 目前SSD产品主要使用的接口模块大多适用SATA及PCIe,部分使用SAS接口。其中PCIe具备更好的带宽速度,SATA接口+AHCI协议被PCIe接口+NVMe协议逐步取代是技术趋势。
- PCIe(Peripheral Component Interconnect Express)是继ISA和PCI总线之后的第三代I/O总线,是一种设备高速连接标准,具备数据传输速率高,抗干扰能力强,传输距离远,功耗低等优点。
PCIe的不断提速,对于数据中心、工控等各个领域影响非同一般,但在功能实现上需要考虑的问题也很多,包括散热、供电等方面的考虑。
(三)组网(传输介质)
组网类型:IP组网仍然是最主流的组网类型,组网类型的选用取决于成本和效率的综合平衡。
主要硬件设备:交换机、路由器,新华三、华为等市场份额较高,成熟公司为主。
- IP组网存储:指采用以太网技术进行组网的存储设备,常见速率包括1Gb、10Gb、25Gb、100bG等;IP组网的兼容性较好,建设成本较低。
- FC组网存储:指采用FC光纤技术进行组网的存储设备,常见速率包括8Gb、16Gb、32Gb等;FC组网的效率较高,但采购成本和维护难度也相对较高,普及率不及IP。
- IB组网存储:指采用InfiniBand技术进行组网的存储设备,常见速率包括40Gb、56Gb、100Gb、200Gb等;IB组网的延迟较低、速率较高,但采购成本相对较高,组网的扩展性也较弱。
当前的主流的数据中心网络都是要解决多个异构系统的互联问题,即使是单一的大规模应用场景,包括云计算、大数据等,主流也都是以高吞吐量场景,也就是多个节点做多个事情,对节点之间的通信延迟没有很高的要求,更看重的是灵活的接入与扩容。
所以这些场景用以太网就非常合适。目前IP组网属于非常成熟和可靠的技术,应用广泛,面向大中小型客户,属于占到90%以上的主流组网方式。
(四)存储类型
- 文件存储:指自身构建文件系统后,通过互通的网络提供给服务器或应用软件使用,支持数据文件读写和文件共享服务的存储设备。文件存储的常用协议包括NFS、CIFS、FTP等。
- 块存储:指将物理存储介质上的物理空间按照固定大小的块组成逻辑盘,并直接映射空间给服务器使用的存储设备。块存储的常用协议包括SCSI、iSCSI、NVMe等。
- 对象存储:指采用扁平化结构,将文件和元数据包装成对象,并抽象成网络URL(统一资源定位器,Uniform Resource Locator),通过HTTP(超文本传输协议,Hypertext Transfer Protocol)协议直接访问的存储设备。对象存储的常用协议包括S3、SWIFT等。
- 其它存储协议:包括在大数据存储中广泛使用的HDFS协议,以及表存储协议等。
(五)软件定义存储-早期主流技术路线对比
主要软件对比:
FC SAN、IP SAN都要有存储管理软件(如卷管理、数据的快照、镜像、备份、恢复、归档等等)。
数据来源:51CTO
主要厂商:
国内SDS产品基于开源路线为主,Ceph占绝对多数,其他有Gluster和BeeGFS。发展到现在,针对场景的代码沉淀逐渐增加,自研程度持续提升,满足自主可控的诉求。
(1)巨头企业
- 华为:FusionStorage(参考Ceph,块存储)、OecanStor 9000(参考Ceph,文件存储)
- 浪潮:AS13000(开源Ceph,重点是文件存储)
- 新华三:OneStor(开源Ceph,块和对象存储)
- 曙光:Parastor(自研,文件系统,HPC场景)
- 深信服:EDS(开源Gluster+Ceph,块存储、文件和对象存储)
(2)初创厂商
- TaoCloud:XDFS(开源Gluster,以文件存储为主),FASS(自研,新一代全闪块存储)
- XSKY星辰天合:SDS系列产品(开源Ceph,块和对象存储)
- 杉岩:SDS系列产品(开源Ceph,块和对象存储)
- 鹏云:ZettaStor DBS(自研,块存储)
- 霄云:BOSS(自研,统一存储)
- 焱融:YRCloudFile(自研,文件存储)
- 龙存:Loong系列(自研,文件系统,HPC场景)
附:关于Ceph
存储根据其类型,可分为块存储,对象存储和文件存储。在主流的分布式存储技术中,HDFS/GPFS/GFS属于文件存储,Swift属于对象存储,而Ceph可支持块存储、对象存储和文件存储,故称为统一存储。Ceph也是应用最广泛的开源分布式存储平台。
- Ceph的优点:存储功能;利用存储节点的计算能力,在存储每一个数据时,都会通过计算得出该数据存储的位置,尽量将数据分布均衡;由于采用了CRUSH、HASH等算法,使得它不存在传统的单点故障,且随着规模的扩大,性能并不会受到影响。
- Ceph的主要架构:
资料来源:InfoQ
- Ceph最初的功能模块:
- Client客户端:负责存储协议的接入,节点负载均衡。
- MON监控服务:负责监控整个集群,维护集群的健康状态,维护展示集群状态的各种图表,如OSD Map、Monitor Map、PG Map和CRUSH Map。
- MDS元数据服务:负责保存文件系统的元数据,管理目录结构。
- OSD存储服务:主要功能是存储数据、复制数据、平衡数据、恢复数据,以及与其它OSD间进行心跳检查等。一般情况下一块硬盘对应一个OSD。
作者:王圆珍
来源公众号:光锥智能(ID:guangzhui-tech),前沿科技,数智经济。
本文由人人都是产品经理合作媒体 @光锥智能 授权发布,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
- 目前还没评论,等你发挥!