服务热线:
产品中心

去中心化存储:下一代互联网新基建的重要支撑

发布时间: 2024-03-09 14:11:19 来源:产品中心

详细信息

  随着万物互联的加快速度进行发展,各行各业逐步全面实现数字化转型。预计到2025年,全球平均产生数据超过460EB/日。数据量激增给当前存储方案带来诸多挑战,改进数据存储方案迫在眉睫,存储能否承载大数据爆发式增长?是不是真的存在更好的解决方案?因此,去中心化存储在区块链的众多落地应用中脱颖而出。

  当前,去中心化分布式存储已成为传统云存储的颠覆者,并可能引发一场数据分发和存储的革命。许多企业慢慢的开始提供去中心化存储产品,其中很多都使用区块链技术来改进存储操作和交易。

  分布式存储没有一个明确的定义,但有一点是共识——分布式存储就是将数据分散放置在多个节点上,节点利用互联网互连提供存储服务。

  这一点也是与传统集中式存储的关键区别,集中式存储是采用数据集中放置的方式。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是单点故障(可靠性)和拒绝服务攻击DoS(安全性)的焦点,不能够满足大规模存储应用的需要。

  分布式存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,不但提高了系统的可靠性、可用性和存取效率,还易于扩展。同时,可以将这些分散的存储设备构建成一个虚拟的大存储池,供上层应用来使用。市场上诸多集群存储、并行存储、云存储等,其实都是基于分布式的架构,只是厂商不同叫法。近几年,这种分布式存储系统(通常叫云存储)正在慢慢地替代传统的存储架构,尤其是在非结构化数据的存储领域发展非常迅猛。

  为了满足多种的应用场景和访问需求,分布式存储系统往往分为块存储、文件存储和对象存储三种接口形式。当然,一个分布式存储系统也可以同时提供这三种形式的服务。比如,Ceph是支持这三种接口的统一存储。

  (1)块存储可以认为是提供裸硬盘的服务,最多是将底层的物理硬盘封装,然后以逻辑卷的方式呈现给上层应用,也就是在硬盘分区上加一层逻辑卷。

  块存储最明显的特征就不可以作系统直接读写,操作系统还需要对挂载的裸硬盘进行分区,格式化为指定的文件系统(Ext3、Ext4、NTFS等),然后才能访问。块存储可理解成一块硬盘,IO读写快,但不利于扩展和共享。典型分布式块存储包括Sheepdog、Open⁃StackCinder、CephRDB、AWSEBS、青云的云硬盘、阿里云的盘古系统,等等。

  (2)文件存储是我们最熟悉的存储方式,也就是文件系统存储,主要操作对象是文件和文件夹。Ext3、Ext4、NTFS是本地文件存储;NFS、CIFS是网络文件存储(NAS存储),通常都是支持POSIX访问接口。

  分布式文件存储跟传统的文件系统(如Ext4)是一个类型的,但不同之处在于分布式存储提供了并行化的能力,常见分布式文件存储系统有Glusterfs、FastDFS、CephFS等,GFS、HDFS这种放宽了POSIX接口的也归为分布式文件存储。

  (3)对象存储能够理解为把文件分解成一个个对象进行存储,简单说就是存储文件会附加一段元数据,查询时寻找元数据然后定位到文件。

  块存储读写快,不利于共享;文件存储读写慢,有利于共享。对象存储就是平衡块存储与文件存储优缺点的一种折中技术。常见的对象存储有CephRADOS、OpenStackSwift、AWSS3等,也就是键值存储,其访问接口基本都是RestfulAPI,也就是简单的GET、PUT、DEL和其他扩展命令。

  综上所述,块存储就是最接近存储介质的接口,文件存储和对象存储都是对块存储的封装。可以简单认为,对象存储就是不分层次的文件存储(或文件存储是把对象存储进一步的层次化封装而成)。对象存储和文件存储的最本质不同之处在于:文件存储的文件组织方式为目录树,而对象存储采用的则是扁平化的键值对组织方式,所以对象存储一般不支持追加写和更新,面向的是多读少写的应用场景。

  如今,分布式存储慢慢的变成了市场的主流。但是,分布式存储其实就是一个大概念,包括中心化和去中心化两种形式,前文讲的分布式存储基本都是中心化的,也就是这种存储系统一般都有一个(或几个)处于中心地位的管理节点。

  然而,去中心化存储仍然是一个新术语,它只是分布式存储的一种形式,两者是包容的:去中心化存储一定是分布式存储,但分布式存储并不全是去中心化存储。

  网络越来越成为人类生活和工作的必需品,人们越来越依赖互联网,但随之而来的是,网络上的个人隐私信息频繁遭到泄露。网络数据泄露的很大部分原因要归于中心化的数据存储,这也是中心化存储方式的弊端——使得网络数据泄露变得不可控,不管是内部人员泄漏或者是黑客窃取。

  网络安全和隐私保护慢慢的受到全社会的重视,区块链技术下的去中心化存储的发展完美解决了网络安全和隐私保护的痛点。近些年,人们逐渐意识到去中心化存储的必要性,也使得去中心化存储的需求慢慢的变大——去中心化存储逐渐站上了区块链和网络安全技术发展的风口浪尖。

  IPFS是ProtocolLab(协议实验室)于2015年开发的一个用来分发和存储各种数据类型资源的去中心化分布式存储系统协议。它的一个阶段性目标就是取代HTTP成为Web3.0时代的底层(应用层)网络协议。

  它的优势很明显。第一,去中心化。IPFS恰好能够给大家提供一个扁平的、开放的网络存储环境,在这里没有谁是统治者,大家都是平等的。可以将数据存储在全球任何一个网络的存储空间中,任何一个节点都是数据源,任何人都可以租用。第二,性价比高。数据爆增已经是这个时代的现实状态,分析和挖掘大数据的价值一定是需要成本的,相比于传统集中式存储或中心化的云存储,IPFS的存储成本更低。第三,安全性高。传统存储不可避免的缺点在于安全系数极低。某一数据节点一旦遭到破坏会导致大量数据短时间内没办法恢复,而且由于数据中心节点少,会出现延迟、网络不稳定等问题——这也是现在各大云服务商投入大量成本建设数据中心、优化网络的原因。然而,IPFS则不存在这样一些问题,数据先通过比较安全且唯一的哈希值进行加密然后再进行分割,分布式存储在多个节点中,只有拥有私钥的数据所有者才能组合所有部分,得到完整数据。因为存储节点众多,一旦某个节点出现一些明显的异常问题,数据恢复也快。中心化的分布式云存储一直是黑客攻击的目标,当前依然面临着严重的安全威胁。去中心化存储IPFS具有天生的安全属性——因没有中心管理节点,自然无法对特定的目标发动DDoS攻击。

  在全球范围内,微软、谷歌、以太坊、Netflix、阿波罗计划档案馆等众多机构,阿里云、腾讯云、华为、浪潮等云服务厂商,以及下游的许多应用服务提供商构成了整个产业链。尽管去中心化存储IPFS还在起步和探索阶段,但许多IPFS分布式存储应用项目已经落地,拥有了庞大的技术和产业生态。

  随着IPFS分布式存储的技术发展和大范围的应用,我国多部门纷纷支持或推荐IPFS,甚至国家两会都提到要全力发展IPFS分布式存储。2019年4月,工信部成立IPFS专业委员会;2020年11月,国家广电局在技术应用白皮书中有一章专门提到了IPFS分布式存储技术;2021年,IPFS分布式存储技术获得更多重量级科研机构的认可和参与,多个机构参与IPFS的研发和应用:人民网宣布使用IPFS技术;中国产业发展研究院成立IPFS分布式存储研究中心;中科院成立IPFS分布式存储联合实验室;浙江省社科院联合成立5G新基建IPFS创新调研小组,等等。

  随着云计算、大数据、5G、AI等技术的应用,海量数据成为了新基建的基础。从集中式到分布式、从中心化到去中心化,数据存储技术的演进是为了适应越来越复杂的应用场景,满足慢慢的升高的应用需求。IPFS作为一项具有突破性的去中心化分布式存储技术,能够很好地解决当下互联网数据存储的安全、高效、低成本等问题,或将成为未来Web3.0强有力的核心技术。