为什么分布式存储成为主流趋势(分布式存储研究报告)
为什么分布式存储成为主流趋势(分布式存储研究报告)研究领域:股权投融资、区块链、IPFS区块链金融学者焦仕可聚英国际研究院首席研究员链世纪财经CEO
出品:聚英国际研究院
战略合作:链世纪财经
链世纪财经CEO 焦仕可
作者简介:
焦仕可
聚英国际研究院首席研究员
链世纪财经CEO
区块链金融学者
研究领域:股权投融资、区块链、IPFS
前言:
移动互联网进入下半场,Web3.0顺势而来。5G、大数据、云计算、区块链、AI等技术的高速发展,将数据产业推上浪潮之巅。扑面而来的数据洪流和新技术的井喷,将对现有的数据服务网络底层设施造成巨大冲击,随着多样化的业务从本地迁往云端,现有网络系统创新升级势在必行。
作为新一代互联网底层协议,IPFS(星际文件系统)在调和“无处不在的海量数据”的技术难题过程中,效果显著。
计算机科学家吴军说:每一次技术的突破,站在浪潮之巅的领导者都会更换一次。
那这一次,会是谁呢?
- 内容摘要:
1、海量非结构化数据激发分布式云存储刚性需求!
2、软件定义存储,新一代绿色云存储促进数据产业降本增效!
3、价值云存储,先进技术引领存储共享经济!
4、行业尚未定型,聚英国际有望抢先分布式存储这一赛道!
一、海量非结构化数据激发分布式云存储刚性需求1.数据爆炸式增长,传统存储迎来巨大挑战!
IDC发布的《数据时代2025》报告显示,2025 年全球每年产生的数据将从2018的33ZB增长到175ZB(如果以TB为单位则为148亿T)。不仅如此,IDC预测全球数据量大约每两年就将翻一倍。
数据来源:IDC
华为全球产业展望(GIV,Global Industry Vision)报告预测,到2025年,个人智能终端数量将达400亿、在商业和社会层面,到2025年,全球1000亿联接将在公用事业、交通、制造、医疗、农业和金融等各个领域,推动数字化转型,届时企业应用云化率将达85%、AI利用率达86%、数据利用率将剧增至80%,每年1800亿TB的新增数据将源源不断地创造智能和价值。
正如IPFS白皮书所说,我们正在进入数据分发新纪元:托管和分发PB级数据集;跨组织的大数据计算;大批量的高清晰度按需或实时媒体流;大规模数据集的版本化和链接;防止意外丢失重要文件等。
数据应用场景的广泛化和数据利用率的提高,未来非结构化数据(文档、图片、视频)将实现指数级增长,存储容量与数量成为巨大挑战。
来源:天风证券
(图为IDC预测2025年我国数据达48.6ZB(18年至25年复合增速超过30%),其中超过80%为非结构数据 )
当下,传统存储已经遭遇瓶颈。由于传统存储是本地存储的特点,数据存储在本地存储设备中,它只能通过纵向扩展(只增加容量),性能与容量成反比,无法解决海量增长的非结构数据存储管理问题。加之互联网业务发展迅猛,高度注重成本,传统存储解决方案已不可行。
2.分布式存储,未来存储的刚需!
未来,数据将如同黄金和石油一样,成为个人及企业 甚至整个社会的重要资产。
海量数据的管理、存储、成本等问题正在倒逼互联网后端分布式存储系统横向发展,即通过增加普通PC服务器来提高系统的整体处理能力。分布式存储系统就是大量普通PC服务器通过Internet互联,对外作为一个整体来提供存储服务。
储存演化示意图 来源:天风证券
分布式存储是传统存储技术在大数据时代自然演进的结果,是未来存储的刚需。
相比传统存储,分布式存储拥有更多优势:可扩展性强(超大规模)、高可靠性和可用性、安全、利用率高(按需服务)、透明服务、自动容错、成本更低,服务能力更好,便携性更强。
分布式存储,将成为未来主流的数据存储方式!
3.分布式存储,未来数据发展的基石!
图片来源:IDC
阿里高级技术专家杨传辉在他的书中表示:大数据不仅需要存储海量数据,还需要通过合适的计算框架或者工具对这些数据进行分析,抽取其中有价值的部分,如果没有分布式存储,便谈不上对大数据进行分析。
无论是今日头条系的抖音还是各平台新闻软件,又或者平时个人及企业数据存储,大数据、云计算、云存储已经融入到我们生活工作的方方面面。
那分布式存储对云存储、大数据、云计算到底有多重要?
首先,我们需要了解云存储的重要作用。
云存储属于托管存储,它通过多种云存储技术的融合,将大量普通PC服务器构成的存储集群虚拟化为易扩展、弹性 、透明、具有伸缩性的存储资源池,将资源池中的存储和数据服务以统一的借口按需提供给授权用户,授权用户即可对存储资源池进行访问和管理,并按使用付费。
云存储采用友好的Web界面与用户进行交互,让用户不必担心技术及设备等问题,为其提供数据存储、数据保护、数据管理等功能。
云存储之所以可以实现这么多功能,关键就在于,它的基础和核心是后端大规模的是分布式存储系统。
云存储和大数据,则是构建在分布式存储之上的应用。云存储是云计算的存储部分,是云计算的底层支撑。
没有分布式存储系统就没有云存储,也就无法支撑云计算,更无法应用大数据,进行大数据分析。
由此可见,没有分布式存储,我们今天所谓的云存储、大数据、云计算的发展将极大程度受到抑制,我们现有的商业及科技发展也会受到极大影响。
分布式存储将成为数据时代的新未来 发展前景不可估量!
二、软件定义存储,新一代绿色云存储促进数据产业降本增效!分布式存储系统如此重要且被业界研究多年,为什么它近几年才出现在大众的视野?
一方面是因为直到近年,谷歌、亚马逊和阿里等互联网公司云计算和大数据应用的兴起,它才大规模应用到工程实践中。
如谷歌的分布式文件系统GFS、分布式表格系统google Bigtable,亚马逊的对象存储AWS,阿里的TFS等都是很好的代表,同时也催生了一大批优秀的开源分布式存储系统,包括ceph、swift、Lustre和glusterfs等。Google、亚马逊、微软以及国内互联网三巨头阿里巴巴、百度和腾讯的核心技术正是后端处理海量数据的分布式系统。
另一方面,数据的爆炸式增长和互联网巨头的中心化云存储已经开始出现各项弊病,虽然云存储给我们带来了极大的便利,但是过去的云存储是在用分布式存储系统的底层架构,做着顶层的中心化存储应用,所有的数据都掌握在互联网巨头手中,大众的数据安全、隐私以及定价权方面都有很大的限制。
这,也正是新一代分布式存储系统IPFS和Filecoin要解决的问题。
随着移动互联网的高速发展和5G时代的到来,以及2014年IPFS星际文件系统的诞生和2017年IPFS的互补协议Filecoin Network在区块链等技术火热的环境下面世,真正的去中心化的分布式存储系统这个底层技术正式被大众熟知并关注。
1.算法控制硬件,信息置换能量,新一代分布式云存储系统更加绿色环保
根据OpenAI发布的《AI与计算》报告,自2012年以来,AI训练任务中使用的算力正呈指数级增长,人们对于算力的需求增长了超过30万倍,其目前速度为每3.5个月翻一倍,每年增长约10倍。
近十年,得益于区块链技术的迅猛发展,比特币挖矿造就了我国芯片研发的市场新秀。比特币两大矿商嘉楠耘智和亿邦国际相继在纳斯达克上市。据网上消息,中国目前已经拥有全球77.7%比特币算力。
一方面,这展现出了算力的迅速发展对芯片创新起到了重要作用,我国在芯片研发上紧跟世界领先水平;另一方面,算力作为计算矿工贡献的主要手段,也带来了两个弊端:计算资源的浪费和能源的大量消耗。
比特币挖矿过去曾被纳入淘汰产业,其中重要的原因也是其本身很难创造价值。据剑桥大学研究人员估计,比特币挖矿每年耗电 640 亿度电,能源消耗超过整个瑞士用电量。
分布式存储网络协议Filecoin在设计之初就考虑了这两个问题,Filecoin使用区块链技术将云存储市场转化为一个算法市场,在 Filecoin 系统中,矿商竞争功率与主动存储成正比,直接为客户提供有用的服务。这样可以激励矿工投入更多的存储设备和网络带宽,环保的同时也创造了应用价值。
IPFS和Filecoin为互补协议,它最大的特点就是它系统的耦合和设计的综合性,IPFS作为对标http的快速索引的版本化点对点文件系统,为Filecoin分布式存储网络提供了强大的数据支持。
中国证券监督管理委员会科技监管局局长、信息中心主任姚前在谈到IPFS时,他表示金融科技实际上是算力突破某一个临界点之后,数据和算法的一个融合。一些技术完全可以融合。区块链链上数据非常宝贵,不可能存大量的数据。现在有人提出IPFS(分布式文件系统),怎么去和大数据分析结合起来,怎么通过区块链来让数据可信,怎么通过大数据分析来使得数据更具智慧,都是将来的重要发展方向。
多方证明,在IPFS和Filecoin网络的协议及技术支持下,用算法控制硬件,用信息传递置换能量,新一代分布式存储不仅是更加环保的绿色云存储,也是更符合时代的金融科技,将会更大程度促进数据产业的高速发展。
2.硬件发展逐步放缓,软件定义存储有助于存储产业降本增效!
虽然分布式存储对处理无处不在的数据有着发动机的重要地位,但是它对技术的应用、迭代、创新以及人才的综合能力也提出了更高的要求。
如果过去是单机式纵向增加服务器来扩充存储容量,那么在数据爆炸式增长的未来,对扩展性、成本、耗能等具有高要求的分布式存储系统,将迎来软件定义存储的时代。
1)硬件发展相对确定且放缓,硬件融合算法,将有效提升计算能力。
过去,摩尔定律一直推动整个硬件产业的发展,即每18个月计算机等IT产品性能会翻一番;或者说相同性能的计算机等IT产品,每18个月会降一半。
从2005年之后的十多年里,集成电路的进步速度有开始放缓,虽然基本上还能做到每两年翻一番,但是在经历了50年的翻番进步后,基于半导体材料的集成电路里面器件的集成度已经接近物理极限。
计算机科学家吴军认为:集成电路依然有发展的空间,那便是继续提高单位能耗的计算能力,而不是一个芯片中绝对的计算能力。
其中比较经典的案例就是英伟达和Google的人工智能芯片。
英伟达公司的人工智能芯片,即一种特殊的图形处理器,它据人工智能计算的特点,将计算的精度从64位降低到8位,用同样数量的晶体管搭建几十倍的内核,来降低每一个内核的能耗。相比英特尔的通用处理器,它单位能耗的计算能力能提高两个数量级(百倍左右)。
Google宣传自己的人工智能芯片TPU比英伟达的人工智能芯片单位能耗的计算能力又提高了两个数量级。它的做法是将深度学习算法的特点设计到了处理器中。
从这两个例子可以看出,如果我们在处理器中将信息处理的算法集成进去,就能大幅度提高单位能耗的计算能力。
在全球海量数据的迫切需求下,分布式存储系统中硬件融合算法的手段将是未来提高存储效能的重要方式。这也是IPFS和Filecoin网络备受全球顶尖投资机构高度关注的原因之一。
当前,计算机的硬件体系架构保持相对稳定。在硬件平台主要通过差异化体现价值的时候,软件处于受限状态;但在硬件平台实现标准化之后,软件定义的时代才真正 到来,现在,正值当下。
2)硬件成本限制对软件层面提出更高要求
事实上,互联网公司的分布式存储系统是由数量众多的、低成本和高性价比的普通PC服务器通过网络连接而成。
但是,普通服务器性价比高,故障率也高,需要在软件层面实现自动容错,保持数据的一致性。另外随着服务器的不断加入,需要能够在软件层面实现自动负载均衡,使得系统的处理能力得到线性扩展。
虽然现有云存储更低的硬件成本和网络成本,更低管理成本和电力成本,以及更高的资源利用率,大型的云存储服务商可以从数据中心开始构建整套公有云存储解决方案达到节省30倍以上成本的目的。
但是要真正实现理想的新一代分布式存储,如同Filecoin网络提出的家用电脑也可以实现存储共享,这就对分布式系统的软件运维及规模效应提出了更高的要求。
3)软件定义存储带来更低成本和更多创新可能,是未来存储发展的必然趋势
IDC中国副总裁兼首席分析师武连峰表示,IT未来的核心将是软件定义:软件定义网络、软件定义存储、软件定义数据中心等,硬件通过软件提升品质、灵活性、可用性,软件通过硬件使载体实现更多的价值。
软件定义存储是从硬件存储中抽象出来的,就是更多地由软件来驱动并控制硬件资源,这也意味着它可以变成一个不受物理系统限制的共享池,以便最有效地利用资源。软件定义存储可以保证数据的存储访问能在一个精准的水平上更灵活地管理。它还可以通过软件和管理进行部署和供应,通过基于策略的自动化管理来进一步简化。
软件定义的存储产品是一个将硬件抽象化的解决方案,它使你可以轻松地将所有资源池化并通过一个友好的用户界面(UI)或API来提供给消费者。一个软件定义的存储的解决方案使得你可以在不增加任何工作量的情况下进行纵向扩展(Scale Up)或横向扩展(Scale Out)。
图片来源:《软件定义存储:原理、实践与生态》
总而言之,通过软件定义的存储,不仅能够降低状态的复杂性、降低总体运维成本、适应快速变化的市场环境、支持IT创新和业务创新,更能使大数据发挥更大的价值。
软件定义存储,是更低成本、更高效率、更多可能性未来存储发展的必然趋势。新一代绿色云存储,将从软件定义存储开始!
三、价值云存储,用领先技术引领存储共享经济!科技的正循环一旦开启,就是一个不断放大的过程,人类获得的收益也是不断叠加的。--计算机科学家吴军
今天,一个普通的技术人员可以短时间内借助云存储平台,不必在计算机上安装各种各样的软件,只要访问云就可以拥有和巨人对手们相同的计算资源,实现梦想。
这才是云存储平台的真正价值所在。
1、分布式存储系统的领先技术加快行业创新速度
云存储分为云端和终端两个部分,由多种技术支持。
比如:摩尔定律一直推动着整个硬件产业的发展,芯片、内存和磁盘等硬件设备在性能和容量方面也得到了极大的提升。此外,诸如SSD、万兆网络和GPU等新型技术的出现也极大的推动者着IT产业的发展。
再者宽带网络技术的发展,只有实现随时随地地快速访问互联网,才能真正享受云存储服务,否则只能是空谈。如今5G的快速发展,也为分布式存储奠定了基础。
新一代分布式云存储,也可称为公有云存储,是一个多区域分布,遍布全国甚至遍布全球的庞大的公用系统。IPFS文件系统融合了近几十年来成功的分布式系统探索开源的产物CDN、P2P、DHT、GIT、DAG、DSN去中心化网络、智能合约、区块链等技术;优秀思想,如比特币、以太坊成功的经济模型;同时迭代出新的协议Bitswap、时空证明和复制证明等协议,为分布式存储整个产业链提供了更多创新的可能性。
在IPFS白皮书中,胡安提到IPFS可以是:
IPFS旨在做新一代Web底层基础架构,带领我们进入一个永恒的web。
这也意味着,分布式云存储在各项技术的支撑下,在不久的未来,它可以通过提供海量的数据存储和处理能力,使用户不必再关心底层基础设施的安全性、可扩展性、隐私,以及突发流量处理等复杂的系统架构问题,将有限的精力集中在最核心的创新业务上,让创新想法很快得到实现,大大地提高创新速度。
在过去,这样的案例已经屡见不鲜。2012年4月,Facebook以10亿美元收购的Instgram(因为大部分是股票,实际价值可能更高),其技术方案大量采用AWS(主机选择Amazon EC2,图片数据库采用Amazon S3,CDN选用Amazon CloudFront等),虽然Instgram只有13名员工(工程团队仅3人),却构建了最强大的移动端图片分享平台,甚至让Facebook感到了威胁。
伴随着5G、AI、IPFS等新一代新技术浪潮的到来,未来将会有更多领域的创新者借助分布式存储的优势脱颖而出,产生更大的企业价值和社会价值。
当前IPFS部分应用
2、领先技术引领云存储共享经济。
从本质上来讲,云存储,就是一种共享经济。而IPFS和Filecoin的诞生,将它推向高潮。
Filecoin作为IPFS的互补协议,是一个分布式存储的网络和协议,它将云存储转化为算法市场,这个算法市场在区块链上运行,带有本地协议令牌。它对去中心化数据构建和运行分布式应用程序具有非常大的作用。同时,它让分布式存储以一个直观、共享的方式呈现在大众眼前,为整个后互联网时代带来巨大增量市场。
另外它借鉴过去十年成功的区块链经济模型,构建起了一个存储的交易市场,对数据存储和检索矿工进行激励,同时也降低了用户的带宽和存储成本。同时也激发了巨大的存储与检索潜力市场。让数据的各项行为真正的交易起来。
Filecoin的本质是共享经济:存储共享、带宽共享。不仅可以使用户通过共享闲置硬盘获得额外收益,还能为全球更加有效地利用存储设备和网络、降低数据的存储和传输成本带来了可能。这将是全民存储共享经济的一种新尝试。
同时,Filecoin网络的蓬勃也带动了存储设备制造业和网络带宽扩容两个行业的快速发展,有了分布式存储基础设施,各项DAPP等新的分布式应用将迎来大的浪潮。
四、行业尚未定型,聚英国际有望抢先分布式存储这一赛道!面对新技术浪潮,他山之石,可以攻玉!
当前,分布式存储领域刚刚兴起,行业尚未定型,作为国内领先的分布式存储系统集成商,聚英国际表现亮眼,有望抢先这一赛道。
就区块链行业来说,已经上市的两家公司主营业务均是芯片研发制造,主要收益来自于矿机的销售。
但是面对分布式存储这一绿色云存储、软件定义存储,价值云存储,共享云存储的新存储经济模式,对云存储服务商有着更高的要求。
它与实体经济对接更加紧密,要求分布式存储服务商需要更加了解数据提供方和云存储使用方的痛点,同时还须不断迭代技术、达到规模效应,以更大程度降低成本,为用户提供简单的云,用得起的云,效率更高,更安全的云。
1、聚英国际,用简洁的服务替代繁琐的技术。
云存储涉及的知识面很广,既涉及云存储服务端的技术,又涉及终端设备应用开发相关的技术。分布式存储层是云存储技术的核心,也是最难实现的部分。
图片来源:《大规模分布式存储系统原理解析与架构实战》
面对技术难题,聚英国际针对下游客户,做企业级IPFS系统解决方案定制商,依托聚英国际的强大的技术研发团队和已经取得的十二项IPFS相关软件著作权的优势,将繁琐的GO语言底层逻辑算法和协议层命令,进行可视化、模块化、产品化升级服务,构建数字化时代的商业基础设施,通过友好的UI界面给有大数据存储需求的企业客户提供安全的、低价的、快速的、定制化的一站式IPFS系统解决方案,帮助企业做大数据托管和IPFS服务代运营。
2、专业的研发、 运营团队为用户的分布式数据存取业务保驾护航。
聚英国际核心研发成员毕业于西北工业大学、上海交通大学、同济大学等知名高校,曾任职百度、英飞凌、Google、银联、Intel等500强企业,在ASIC矿机芯片、大数据、AI算法、服务器研发领域拥有15年以上经验。
多名成员曾获得陕西省政府颁发的陕西省科学技术一等奖、二等奖荣誉,团队发挥核心技术优势,在底层网络通信,中层加密算法,上层共识算法领域,将软件算法和硬件研发相结合,打造了一套“高效率、高收益、低门槛、低风险”的Filecoin分布式存储系统解决方案。多次迭代后的自主研发挖矿系统,从网络架构、通信模块、软件算法、控制系统等多个维度提升了综合效率。
核心运营团队均为名校毕业,在硬件、软件、算法、运维、风控等领域拥有丰富经验,尤其是现场运维团队为国内第一家通过U P T I M E M & O 运维管理认证团队, 引领业界先进运维水平,托管稳定度全球领先。
3、真实用户群体提供数据存储支持。
中小企业大都没有自建存储的能力,内部数据管理也比较混乱,通过企业云存储,可以省去自建和管理的麻烦,并提供一定的灾难恢复能力。
聚英国际过去十年服务十万家中小企业,安全、快速、低成本、可保证隐私的数据的存储是各中小企业的刚需。
聚英国际作为西北最大的企业咨询培训集团,深知中小企业数字化转型痛点,将会以更落地、更适合企业的个性化存储方式帮助企业通过分布式云存储实现数字化转型。
4、完备的上市计划,争做分布式存储行业领头羊。
世界正迈入万物互联的智能时代。数据中心作为数据流转枢纽和业务承载平台,是全球数字经济的重要基础设施之一。
对于大量的数据存储及计算需求,分布式云存储基础设施的建设也是势在必行。如果过去,我们称之为互联网数据中心(IDC),那么在未来DDC(分布式数据中心)将成为围绕数据存储及计算的最重要的基础设施。
聚英国际已经做好DDC全局准备。
目前,已有超过三家供应商为其提供优质服务器硬件资源,并与希捷等一线品牌商合作定制开发专用矿机硬盘,整合了具备领先优势的硬件设备系统供应链。
针对上游,聚英国际将做生态级IPFS软硬件系统集成商,整合上下产业链相关软硬件资源,迭代加速包算力,优化核心算法,研发自主知识产权的集群式定制化系列服务器,引领行业标准,力求给上游客户带来性价比最高的前瞻性产品和全维度的运营维护服务。
除了近期的全方位准备,聚英国际还制定了远期ASIC全定制系统计划。
公司和国内顶级存储器设计研发企业展开战略合作,后期将在高稳定存储芯片、智能安全存储芯片领域会展开深度合作,陆续推出针对IPFS核心算法定制化的FPGA、ASIC芯片,完成分布式存储领域内自主知识产权的软硬件产品全品类开发。
据官方信息,聚英国际已经于2016年财务正规化,2018年完成股份制改革,现已完成上市前一切准备,奔赴资本市场,指日可待!
机会只会留给已经准备好的人。聚英国际,过去十年服务十万家中小企业,如今在专业的科研团队基础上,又与存储产业一线领导者强强联合,打造新一代绿色云存储、价值云存储。聚英国际在分布式存储这一赛道,布局全面且坚实,是值得期待的行业黑马!
参考文献:
【1】Juan Benet IPFS-Content Addressed Versioned P2P File System
【2】Protocol Labs,Filecoin:A Decentralized Storage Network,2017.8.14
【3】David Reinsel,John Gantz,John Rydning,Data Age 2025-IDC,2018.11
【4】沈海兵,缪欣君,分布式存储,企业IT市场新增长点-天风证券,2020.3.2
【5】叶毓睿 雷迎春 李炫辉 王豪迈等,软件定义存储:原理、实践与生态,2016.6
【6】小英,聚英国际在分布式存储领域的八大核心优势,2020.7.13
【7】杨传辉,大规模分布式存储系统原理解析与架构实战,2013.9
【8】董天一,戴嘉乐,黄禹铭,IPFS原理与实践,2019.5
【9】吴军,科技史纲60讲