数据革命:去中心化存储的全景揭秘
作者:Gryphsis Academy
截至 2023 年 6 月,去中心化存储整体的存储容量已超过 22000 PB(PB),在现有的存储容量中,大约超 80% 的存储容量由 Filecoin 提供,随着人工智能和全链游戏等领域的兴起,去中心化计算和存储赛道有望迎来令人兴奋的增长机会。
TL;DR
-
去中心化存储是指单个实体或部分群体将其闲置存储空间作为存储网络的单元,从而绕过 AWS 和谷歌云等中心化机构对数据的绝对控制。
-
低存储成本、数据冗余备份和 token 经济也是去中心化存储的特点,大量的 Web3 应用程序都建立在这个基础架构上。
-
截至 2023 年 6 月,去中心化存储整体的存储容量已超过 22000 PB(PB),而网络利用率仅约为 20%。这表明未来有很大的增长空间。
-
在现有的存储容量中,大约超 80% 的存储容量由 Filecoin 提供,它无疑是该领域的领头羊。Filecoin 还推出了 Filecoin Plus 和 FVM 等项目,以激励开发者并促进生态系统发展。
-
随着人工智能和全链游戏等领域的兴起,去中心化计算和存储赛道有望迎来令人兴奋的增长机会。
1. 为什么我们需要去中心化存储
像 Dropbox 和 Google Cloud 这样的云存储服务已经改变了我们在线存储和共享大型文件(如视频和照片)的方式。它们允许任何人以比购买新硬盘低得多的成本存储几 TB 的数据,并在需要时从任何设备访问文件。然而,有一个问题:用户必须依赖中心化实体的管理系统,这些实体可能随时取消他们对账户的访问权限,与政府机构共享他们的文件,甚至无故删除文件。这种存储模式导致数据资产的归属不清晰,并且实际上使得亚马逊和谷歌等大型互联网公司在数据方面垄断。此外,中心化服务的停机时间经常会带来灾难性的后果。
存储领域其实原生适用于去中心化应用。首先,它解决了用户数据隐私和所有权等问题。 存储在去中心化文件服务上的文件不受任何中心化机构的影响,比如可能希望控制和审查内容的政府机构。它还可以防止私营公司采取诸如审查服务或与执法部门共享文件的事件。
其次,海量的数据存储于索引本身就需要分布式系统来实现。现有的中心化云服务同样使用着分布式的方案,如 Spanner、TiDB 等。可以说分布式并不意味着去中心化,但去中心化一定是分布式的。 区别于中心化存储的架构,现有的去中心化方案会将数据分成小块并在加密后存储在全球的各个节点上,这个过程会创建数据的多个副本并提高对数据丢失的恢复能力。
第三,解决了无效挖矿的资源消耗。比特币的 PoW 机制造成的大量电能消耗一直以来被人所诟病,而去中心化存储赋予了用户成为节点的机会,可以通过闲置的存储资源来进行挖矿并获利。而大量的存储节点,也意味着成本的降低,可以预见的是,去中心化的存储云服务甚至能够馋食一部分 Web2 云服务市场份额。在网络带宽、硬件服务不断升级的今天,这是一个及其庞大的市场,根据 Business Research 预测,全球的数据库市场将在 2028 年超过 1200 亿美金。
2. 去中心化存储架构
为了创建真正去中心化的应用程序,去中心化数据库也应该包含在 Web3 应用程序架构中。其可以分为四个主要组件:智能合约层、文件存储、数据库和通用基础设施层。
智能合约层相当于是 Layer1,而通用基础设施层则包括但不限于预言机、RPC、访问控制、身份、链下计算和索引网络。
虽然用户感知不明显,但文件存储和数据库层在 Web3 应用程序的开发中都发挥着至关重要的作用。它们为存储结构化和非结构化数据提供了必要的基础架构,这是各种应用程序的要求。由于本报告的性质,下文将进一步详细介绍这两个组成部分。
2.1 去中心化文件存储网络 (DFSNs)
像 Filecoin、Arweave 和 Crust 等 DFSNs 主要用于非结构化数据的持久存储,这些数据不遵循预定义的格式,也不需要频繁更新或检索。因此,DFSNs 通常用于存储各种静态类型的数据,例如文本文档、图像、音频文件和视频。
分布式存储体系结构中这种类型的数据的一个优点是能够利用边缘存储设备或边缘数据中心将数据存储移动得更靠近终端。这种存储方法提供了更低的网络通信成本、更低的交互延迟和更低的带宽开销。它还提供了更大的适应性和可扩展性。例如,以 Storj 为例,1TB 的每月存储成本为 4.00 美元,而市场领头羊的企业云存储解决方案 Amazon S3 对相同数量的数据每月收费约 23.00 美元。
与传统的中心化云存储解决方案相比,用户可以从更具成本效益的存储选项中受益。DFSNs 的去中心化特性还提供了更高的数据安全性、隐私性和控制性,因为数据分布在多个节点或矿工之间,而不是存储在单个中心化服务器中。
2.2 去中心化数据库
在 DFSNs 中存储非结构化文件的局限性是显而易见的,特别是在高效的数据检索和更新方面。对于需要频繁更新的数据,这些体系结构不是最理想的选择。在这种情况下,MySQL 和 Redis 等传统数据库是更适合开发人员的选项,它们在 Web2.0 的互联网时代经过了广泛的优化和测试。
尤其是在区块链游戏和社交网络等应用中,存储结构化数据是一个不可避免的要求。传统数据库提供了一种有效的方式来管理大量动态数据并控制对其的访问。它们提供了索引、查询和数据操作等功能,这些功能对依赖结构化数据的应用程序至关重要。因此,无论是基于 DFSNs 还是自研底层存储。高性能、高可用性的去中心化数据库是存储领域的一个非常重要的分支。
3. DFSNs 技术层面分析
3.1 概括
在目前的 Web3 项目中,去中心化的文件存储项目(DFSNs)大致可以分为两类。第一类包括Filecoin 和 Crust 等基于 IPFS 实现的项目。第二类包括 AR、Sia 和 Storj 等项目,它们有自己的底层协议或存储系统。尽管它们有不同的实施方法,但都面临着相同的挑战:确保真正去中心化存储的同时实现高效的数据存储和检索。
由于区块链本身不适合在链上存储大量数据,相关成本和对区块空间的影响使这种方法不切实际。因此,理想的去中心化存储网络必须能够存储、检索和维护数据,同时确保网络中的所有参与者的工作都受到激励,并遵守去中心化系统的信任机制。
我们将从以下几个方面评估几个主流项目的技术特点和优缺点:
数据存储格式: 存储协议层需要确定数据应该如何存储,例如数据是否应该加密,以及数据应该作为一个整体存储还是分成小的散列块。
数据复制备份: 需要决定将数据存储在哪里,例如应该有多少节点保存数据,是否应该将所有数据复制到所有节点,或者每个节点是否应该接收不同的片段,以进一步保护数据隐私。数据存储格式和传播将决定网络上数据可用性的概率,即设备随时间发生故障时的持久性。
长期的数据可用性: 网络需要确保数据在应在何时何地可用。这意味着要设计激励机制,防止存储节点随时间删除旧数据。
存储数据的证明: 网络不仅需要知道数据的存储位置,而且存储节点应该能够证明他们确实存储了他们想要存储的数据,以确定激励的份额。
存储价格发现: 预计节点将为文件的持续存储付费。
3.2 数据存储与复制
正如刚刚提到的,Filecoin 和 Crust 使用 IPFS 作为网络协议和通信层,用于在对等点之间传输文件并将其存储在节点上。不同之处在于 Filecoin 使用擦除编码(EC)来实现数据存储的可扩展性。擦除编码(EC)是一种数据保护方法,将数据划分为片段,扩展和编码冗余数据块,并将其存储在不同的位置,如磁盘、存储节点或其他地理位置。EC 创建了一个数学函数来描述一组数字,允许检查它们的准确性,并在其中一个数字丢失的情况下恢复它们。
Source: usenix
基本方程为 n=k+m,其中总数据块等于原始数据块加上校验块。
从 k 个原始数据块中计算出 m 个校验块。将这 k+m 个数据块分别存放在 k+m 个硬盘上,就能容忍任意 m 个硬盘故障。当出现硬盘故障时,只要任意选取 k 个幸存数据块就能计算得到所有的原始数据块。同理,如果将 k+m 个数据块分散在不同的存储节点上,就能容忍 m 个节点故障。
当新的数据要存储在 Filecoin 网络上时,用户必须通过 Filecoin 存储市场连接到一个存储供应商,并协商存储条款,然后再下一个存储订单。 同时,用户必须决定使用哪种类型的纠删码以及其中的复制因子。通过纠删码,数据被分解成恒定大小的片段,每个片段都被扩展,并对冗余数据进行编码,因此,只有片段的一个子集才需要重建原始文件。复制因子指的是数据应该多长时间被复制到存储矿工的更多存储扇区。一旦存储矿工和用户就条款达成一致,数据就会被传送到存储矿工,并被存储在存储矿工的存储扇区。
Crust 的数据存储方式则不一样 ,他们将数据复制到固定数量的节点:提交存储订单时,数据被加密并发送到至少 20 个 Crust IPFS 节点(节点数量可以调整)。在每个节点上,数据被分成许多较小的片段,这些片段被散列成 Merkle 树。每个节点保留构成完整文件的所有片段。
Arweave 也同样使用完整文件的复制 ,但 Arweave 采用了一些不同的方法。交易提交到 Arweave 网络后,第一个单个节点会将数据作为块存储在 blockweave 上(Arweave 的区块链表现形式)。从那里开始,一种称为 Wildfire 的非常激进的算法确保数据在网络上快速复制,因为为了让任何节点挖掘下一个块,它们必须证明他们可以访问前一个块。
Sia 和 Storj 同样使用 EC 来存储文件。 实际上 Crust 的实现:20 个完整的数据集存储在 20 个节点上是非常冗余的,但也会使数据非常耐用。可如果从带宽的角度来看,这是非常低效的。纠删码提供了一种更有效的实现冗余的方法,通过提高数据的持久性而不会产生大的带宽影响。Sia 和 Storj 直接将 EC 分片传播到特定数量的节点,以满足一定的持久性要求。
3.3 数据存储证明与激励
之所以要先说明数据存储格式是因为技术路径的选择直接决定了各个协议在证明、激励层的区别。即如何验证要存储在特定节点上的数据是否确实存储在该特定节点上。 只有在验证发生之后,网络才能使用其他机制来确保数据随着时间的推移保持存储(即,存储节点不会在初始存储操作后删除数据)。
此类机制包括证明数据在特定时间段内存储的算法、成功完成存储请求持续时间的财务激励以及对未完成请求的抑制等。本节将介绍每个协议的存储及激励协议。
3.3.1 Filecoin
在 Filecoin 上,存储矿工在收到任何存储请求之前,必须将抵押品存入网络,作为向网络提供存储的承诺 ,完成后,矿工可以在存储市场上提供存储并为其服务定价。同时,Filecoin 创新性地提出了 PoRep 和 PoSt 来进行矿工的存储验证。
Source: Filecoin
复制副本证明(PoRep): 矿工需要证明它们存储了数据的独特副本。独特的编码确保了同一份数据的两个存储交易无法重用同一个磁盘空间。
时空证明(PoSt): 在存储交易的生命周期内,存储矿工需每 24 小时证明一次自己在持续划拨专用存储空间来存储该数据。
在提交证明后存储空间提供者会获得 FIL 回报,若无法遵守承诺,其抵押的 token 就会被没收(Slash)。
但随着时间的推移,存储矿工需要通过定期运行该算法来始终如一地证明他们对存储数据的所有权。但是,像这样的一致检查需要大量带宽。而 Filecoin 的新颖之处在于,为了证明数据随时间存储并减少带宽使用,矿工使用前一个证明的输出作为当前证明的输入,按顺序生成复制证明。这是通过多次迭代执行的,这些迭代表示数据要存储的持续时间。
3.3.2 Crust Network
和 Filecoin 一样 ,Crust 与 IPFS 的关系同样是激励层和存储层的关系。在 Crust Network 中,节点还必须先存入抵押品,然后才能在网络上接受存储订单。节点提供给网络的存储空间量决定了抵押品的最大数量,该抵押品被质押并允许节点参与在网络上创建区块。这种算法被称为保证权益证明(Guaranteed Proof of Stake, GPoS),它保证只有在网络中拥有权益的节点才能提供存储空间。
Source: Crust Wiki
和 Filecoin 不一样的是,Crust 的存储价格发现机制依赖于 DSM ,节点和用户会自动连接到去中心化存储市场 (DSM),该市场会自动选择在哪些节点上存储用户的数据。存储价格是根据用户需求(例如存储持续时间 storage duration 、存储空间 storage space、复制因子 replication factor)和网络因素(例如拥塞 congestion)确定的。当用户提交存储订单时,数据将被发送到网络上的多个节点,这些节点使用机器的可信执行环境 (TEE:Trusted Execution Environment) 拆分数据并散列碎片。由于 TEE 是一个封闭的硬件组件,即使硬件所有者也无法访问,因此节点所有者无法自行重建文件。
文件存储在节点上后,包含文件哈希的工作报告与节点的剩余存储一起发布到 Crust 区块链。从这里确保数据随时间存储,网络定期请求随机数据检查:在 TEE 中,随机 Merkle 树哈希与相关文件片段一起被检索,该文件片段被解密并重新散列。然后将新散列与预期散列进行比较。这种存储证明的实现称为有意义的工作证明(MPoW:Meaningful Proof of Work)。
GPoS 是一种以存储资源定义额度的 PoS 共识算法。 通过第一层 MPoW 机制提供的工作量报告,Crust 链上可以获得所有节点的存储工作量,而第二层的 GPoS 算法,就是根据节点工作量为每个节点计算一个 Staking 额度。再根据这个额度,进行 PoS 共识。即出块奖励跟每个节点的抵押量成正比,而每个节点的抵押量上限,则受到节点提供存储量的限制。
3.3.3 Arweave
相比于前两种定价模式,Arweave 使用非常不同的定价模型,核心在于,在 Arweave 上,所有存储的数据都是永久的,其存储价格取决于在网络上存储数据 200 年的成本。
Arweave 数据网络的底层基于了 Bockweave 的区块生成模式。典型的区块链,如比特币,是一条单链结构,即每个块都将链接到链中的前一个区块。而 blockweave 的网状结构中,每个块在前一个块的基础上,还将链接到区块链先前历史中的随机回忆块(recall block)。回忆块由区块历史中前一个块的哈希值和前一个块的高度的决定,这是一种具有确定性但不可预测的方式。当矿工想挖掘或验证新块时,矿工需有权利访问召回块的信息。
Arweave 的 PoA 采用 RandomX 哈希算法,矿工的出块概率 = 随机召回区块的概率 * 第一个找到哈希的概率。 矿工需要通过 PoW 机制找到合适的哈希值来生成新区块,但随机数(Nounce)依赖于前一个区块和任意随机的回忆块信息。回忆块的随机性使得矿工被鼓励存储更多的区块,由此获得相对较高的计算成功率及出块奖励。PoA 也激励矿工存储“稀缺块”,即他人没有存储的区块,来获得更大的出块概率和奖励。
Source: Arweave Yellow Paper
当一次性收费即后续数据读取为免费服务,可持续意味着用户可随时访问数据,那如何长效激励矿工愿意零收入的提供数据读取服务呢?
Source: Arweave Yellow Paper
在 BitTorrent 的博弈论策略 “optimistic tit-for-tat algorithm“设计中,节点是乐观的,将与其他节点合作,不合作的行为将受到惩罚。基于此,Arweave 设计了 Wildfire,一个隐性激励措施的节点评分系统。Arweave 网络中的各个节点将根据接受数据量和反应速度对相邻的各节点进行打分,节点将优先选择排名较高的对等方发送请求。节点排名越高,其信用度越高,出块的概率也就越大,获取稀缺区块可能性也越大。
Wildfire 实际上是博弈,是高度可扩展的游戏。节点间不存在“排名”共识,亦无义务报告排名的产生和确定,而节点间的”善恶“由自适应机制调节,以确定新行为出现的奖励和惩罚。
3.3.4 Sia
与 Filecoin 和 Crust 一样,存储节点必须存入抵押品才能提供存储服务。 在 Sia 上,节点必须决定发布多少抵押品:抵押品直接影响用户的存储价格,但同时发布低抵押品意味着如果它们从网络中消失,节点也没有任何损失。这些力量将节点推向平衡抵押品。
用户通过自动存储市场连接到存储节点,其功能类似于 Filecoin:节点设置存储价格,用户根据目标价格和预期存储时长设置预期价格。然后用户和节点会自动相互连接。
Source: Crypto Exchange
在这几个项目当中, Sia 的共识协议使用了最简单的方式:存储合同上链。在用户和节点就存储合同达成一致后,资金被锁定在合同中,并使用擦除编码将数据分割成片段,每个片段使用不同的加密密钥进行单独散列,然后每个片段被复制到几个不同的节点上。记录在 Sia 区块链上的存储合同记录了协议条款以及数据的 Merkle 树哈希值。为了确保数据在预期的存储时间内被存储,存储证明会定期提交给网络。这些存储证明是基于随机选择的原始存储文件的一部分和记录在区块链上的文件的 Merkle 树的哈希值列表而创建。节点在一段时间内提交的每一个存储证明都会得到奖励,最后在合约完成时得到奖励。
在 Sia 上,存储合同最长可以持续 90 天。要存储超过 90 天的文件,用户必须使用 Sia 客户端软件手动连接到网络,以将合同再延长 90 天。Skynet 是 Sia 之上的另一层,类似于 Filecoins Web3.Storage 或 NFT.Storage 平台,通过让 Skynet 自己的客户端软件实例为用户执行合同续期,为用户自动完成这一过程。虽然这是一个变通办法,但它不是一个 Sia 协议级别的解决方案。
3.3.5 Storj
在 Storj 去中心化存储网络中,没有区块链或类似区块链的结构。 没有区块链也意味着该网络对其状态没有全网共识。相反,跟踪数据存储位置由卫星节点处理,数据存储由存储节点处理。卫星节点可以决定使用哪些存储节点来存储数据,存储节点可以决定从哪些卫星节点接受存储请求。
除了处理跨存储节点的数据位置跟踪外,卫星还负责存储节点的存储和带宽使用的计费和支付。在这种安排下,存储节点设置自己的价格,只要用户愿意支付这些价格,卫星就会将它们相互连接起来。
Source: Storj GitHub
当用户想要在 Storj 上存储数据时,用户必须选择一个卫星节点来连接并共享其特定的存储要求。卫星节点然后会挑选出满足存储需求的存储节点,并将存储节点与用户连接起来。然后用户直接将文件传输到存储节点,同时向卫星付款。然后,卫星每月为保存的文件和使用的带宽支付存储节点费用。
这样的技术方案其实是非常中心化的,卫星节点的开发完全由项目方来定义, 也意味着项目方掌握了定价权。虽然中心化的架构也为 Storj 带来性能高效的服务,但正如开头说到,分布式存储并不一定等于去中心化。Storj 在以太坊上发布的 ERC-20 代币 Storj 也并没有用到任何智能合约的功能,其本质上只是提供了一种多样的支付方式。
这和 Storj 的商业模式有很大关系,他们主打企业级的存储服务,直接对标亚马逊的 S3 服务,并与 Microsoft Azure 建立了合作伙伴关系,希望为企业提供各项性能指标都堪比、甚至超越亚马逊存储的服务。在性能数据未知的情况下,他们存储的成本确实比亚马逊要划算很多,一定程度上可以说明去中心化存储的商业模式是能够走得通的。
4. 不同技术路径的影响
4.1 经济模型
技术路径的选择也在一定程度上影响了代币模型的设计。四个主要的去中心化存储网络中的每一个都有自己的经济模型。
Filecoin、Crust 和 Sia 都使用 Stake for Access(SFA)的代币模型。在这种模式下,存储提供商必须锁定网络的本机资产才能接受存储交易。锁定的数量与存储提供商可以存储的数据量成比例。这就产生了一种情况,存储提供商在存储更多数据时必须增加其抵押品,从而增加对网络本地资产的需求。理论上,资产的价格应该随着网络上存储的数据量的增加而增加。
Arweave 则利用了一种独特的捐赠代币模型,其中每笔交易的一次性存储费的很大一部分被添加到捐赠池中。随着时间的推移,捐赠池中的代币以存储购买力的形式积累利息。随着时间的推移,捐赠将分配给矿工,以确保数据在网络上的持久性。这种捐赠模式有效地长期锁定了代币:随着 Arweave 上存储需求的增加,更多的代币被从流通中移除。
与其他三种网络相比,Storj的代币模型是最简单的。它的 token $STORJ 用作网络上存储服务的支付手段,对于终端用户和存储提供商来说都是如此,所有其他网络也是如此。因此,$STORJ 的价格是对 $STORJ 服务需求的直接函数。
4.2 目标用户
很难说某一个存储网络在客观上比另一个好。在设计去中心化存储网络时,没有单一的最佳解决方案。根据网络的目的及其试图解决的问题,必须在技术设计、代币经济、社区建设等方面进行权衡。
Filecoin 主要面向企业和应用开发,提供冷存储解决方案。它具有竞争力的价格和可访问性,使其成为 Web2 实体为大量归档数据寻求经济高效存储的一种有吸引力的替代方案。
Crust 确保了过量冗余和快速检索,使其适用于高流量的 dApp 和流行 NFT 数据的高效检索。然而,它缺乏持久冗余严重影响了它提供永久存储的能力。
Arweave 以其永久存储的概念从其他去中心化存储网络中脱颖而出,这在存储 Web3 数据(如区块链状态数据和NFT)方面尤其流行。其他网络主要针对热存储或冷存储进行优化。
Sia 瞄准了热存储市场,主要专注于寻求具有快速检索时间的完全去中心化和私有存储解决方案的开发人员。虽然它目前缺乏本地 AWS S3兼容性,但像 Filebase 这样的访问层提供了这样的服务。
Storj 似乎更全面,但牺牲了一些去中心化。Storj 显著降低了 AWS 用户的进入门槛,迎合了企业热存储优化的关键目标受众。它提供与 AmazonS3 兼容的云存储。
5. 去中心化存储的生态建设
在生态系统建设方面,我们主要可以讨论两个类型:第一类是上层 Dapps 完全建立在存储网络上,旨在增强网络的功能和生态系统;其次,已有的去中心化应用和协议如 Opensea, AAVE 等选择与特定的存储网络集成,以变得更加去中心化。在本节中,我们将重点介绍 Filecoin、Arweave 和 Crust,因为 Sia 和 Storj 在生态系统方面没有突出的表现。
5.1 Filecoin 生态
Source: Filecoin
在 Filecoin 展示的生态系统中,已经有 115 个项目属于上述第一类,这些项目都是完全基于Filecoin 的底层结构。可以观察到,大多数项目都集中在通用存储、NFT 和消费者存储。Filecoin 生态系统中的另一个重要里程碑是 Filecoin 虚拟机(FVM),它与以太坊虚拟机(EVM)类似,提供了在智能合约中部署和执行代码所需的环境。
Source: Filecoin
有了 FVM,Filecoin 网络在现有存储网络之上获得了执行智能合约的能力。在 FVM 中开发者不会对用户的存储数据进行编程,而是定义这些数据通过智能合约(以去信任方式)存储在该网络后,会如何自动或有条件进行相关运作。可以想像的场景如下:
基于 Filecoin 上存储的数据进行分布式计算 (在数据的存储位置进行计算,而无需将其先移动)
众筹式的数据集保存计划 - 如任何人都可以资助存储一些对社会很重要的数据,如犯罪数据或环境变暖相关数据
智能存储市场 - 如根据每天不同时段、复制层级、在某区域内的可及性动态调整存储费率)
数百年的存储和永续的托管 - 如存储数据,让经历几代人都还能使用
数据DAO或token化数据集 - 如将数据的价值作为token建模并组建DAO以协调和交易在其之上进行的计算。
本地存储的NFTs - 如与跟踪NFT的注册记录一起协同定位NFT内容
时间锁式数据取回 - 如只有在公司的记录公开后才解锁相关的数据集
抵押贷款 (如向存储提供者发放确定目的贷款,像是接纳来自特定用户的FIL+交易提议,或在确定时间窗口增加容量)
Source: Filecoin
同时,从核心上来看,FVM 虚拟机是基于 Webassembly(WASM) 的。这个选择让开发者能以任何可编译为 WASM 的编程语言,来编写原生的上层应用。此特性可以让 Web3 开发者更容易上手,因为可以让他们使用早已掌握的知识,绕过与特定语言相关的学习曲线。
开发人员还可以移植现有的以太坊智能合约,只需对源代码进行少量(甚至无需)更改。复用以太坊网络中经过审计和实战检验的智能合约的能力,使开发者可以节省开发成本和时间,而用户也可以在风险最小的情况下享受其实用性。
另外值得一提的是Filecoin Plus,这是一个旨在补贴用户以折扣价存储大型、有价值的数据集的程序。想要将数据上传到网络的客户可以向社区中一组选定的名为公证人的成员申请,公证人审查并向客户分配名为 DataCaps(数据配额)的资源。然后,客户可以使用 DataCap 来补贴他们与存储提供商的交易。
Filecoin Plus 计划带来了许多好处,使 Filecoin 网络更加活跃,有价值数据的存储继续产生区块需求;客户以极具竞争力的价格获得更好的服务;随着区块奖励的增加而上升,与 2021 年相比,2022 年 Filecoin Plus 推出后,存储的数据将增加 18 倍。
5.2 Crust Network 生态
与 Filecoin 和 Arweave 相比,Crust 在生态系统建设方面有不同的路径。它更偏向于直接与现有 Web3 应用程序合作并提供服务,而不是激励第三方开发者在 Crust 上构建自己的生态系统应用。主要原因是 Crust 是建立在 Polkadot 上,虽然以太坊和 Cosmos 生态是在 Crust 项目方初期考虑过的选择,但与它们技术路径并不足够兼容。Crust 更喜欢 Polkadot 的 Substrate 框架,以提供的高度可定制的开发空间、链上升级和链上治理。
Source: Crust Network
Crust 在开发者支持方面表现出色。它引入了 Crust 开发工具包,其中包括 js SDK、Github Actions、Shell Scripts 和 IPFS Scan,以满足不同 Web3 项目的集成偏好。目前,开发工具包已集成到各种 Web3 项目中,如 Uniswap、AAVE、Polkadot Apps、Liquity、XX Messenger 和RMRK。
根据官方网站上提供的数据,目前有 150 多个项目与 Crust Network 整合。这些应用程序中有很大一部分(超过34%)是 DeFi 项目。这是因为 DeFi 项目通常对数据检索有高性能要求。
如前所述,在 Crust Network 上,数据被复制到至少 20 个节点,在许多情况下,复制到 100 多个节点。虽然这确实需要更大的初始带宽,但从多个节点同时检索数据的能力加快了文件检索,并在出现故障或节点离开网络时提供了强大的冗余。Crust Network 依赖于这种高水平的冗余,因为它不像其他链那样具有数据补充或修复机制。在这些去中心化的存储网络中,Crust Network 是最年轻的。
5.3 Arweave 生态
Source: Arweave, the newest ecosystem landscape
如上图所示,Arweave 也有一个强大的生态系统。其中重点标注了大约 30 个应用,它们完全基于Arweave 开发。尽管没有 Filecoin 的 115 个应用程序那么多,但这些应用程序仍然满足用户的基本需求,涵盖了广泛的领域,包括基础设施、交易所、社交和 NFT 等。
特别值得注意的是建立在Arweave上的去中心化数据库。Arweave 主要将其区块组织用于数据存储,同时在用户端执行链外计算。因此,使用 Arweave 的成本仅由链上存储的数据量决定。
这种计算与链的分离,被称为基于存储的共识范式(SCP),解决了区块链的可扩展性挑战。SCP 在 Arweave 上是可行的,由于数据输入存储在链上,链下计算会可信地产生与链上计算相同的状态。
SCP 的成功实施为 Arweave 上众多数据库的开发打开了大门。在 Arweave 上构建的四个不同的数据库:
-
WeaveDB:作为 Arweave 上的智能合约构建的键值数据库,它使用白名单地址进行访问控制逻辑。
-
HollowDB:作为 Arweave 上的智能合约构建的键值数据库,它使用白名单地址和ZK证明来确保数据的可验证性。ZK 证明也用于确保数据的可验证性。
-
Kwil: 一个 SQL 数据库,运行自己的 P2P 节点网络,但使用 Arweave 作为存储层。它使用公钥/私钥对进行访问控制逻辑,并使用自己的共识机制进行数据验证。
-
Glacier:一个 NoSQL 数据库,架构为 ZK-Rollup,使用 Arweave 作为其数据可用性层。它使用公钥/私钥对作为访问控制逻辑,使用 ZK 证明作为数据可验证性。
6. 增长驱动力
去中心化存储的增长取决于几个核心因素,根据其特点,这些因素可分为三大类:总体市场前景、技术和公众意识。这些因素相互关联,相互补充,可以进一步划分为更细微的子类别。随后的段落对每个因素进行了更详细的细分。
6.1 市场前景
6.1.1 云存储市场的潜力
随着互联网渗透到当代生活中,云存储服务几乎对每个人都至关重要。2022 年,全球云存储市场达到了惊人的 786 亿美元,增长轨迹没有减弱的迹象。一项市场研究表明,到 2027 年,该行业的估值可能达到 1837.5 亿美元。
与此同时,IDC 预计,到 2029年,云存储市场的估值将达到 3760 亿美元。IDC 的预测进一步说明了对数据存储日益增长的需求,该预测预计到 2025 年,全球数据圈将扩展到 175 zettaytes。鉴于这些充满希望的前景,可以得出这样的结论:去中心化存储作为 Web2 同类产品的替代品,将从整体市场增长中获益,推动其走上上升轨道。
6.1.2 数字资产驱动力
作为 Web3 的关键基础设施之一,去中心化存储的增长与整个加密货币市场的扩张有着内在的联系。即使不考虑存储需求的激增,如果数字资产的采用率继续上升,去中心化存储的市场规模也可能稳步增长。没有权力下放的基础设施,就无法实现真正的去中心化。加密货币采用率的增加可能标志着公众对去中心化的重要性有了更多的理解,从而推动了去中心化存储的使用。
6.2 技术驱动力
6.2.1 基于云计算的产品和计算资源
数据的价值往往体现在它所提供的分析意义,这就需要进行数据计算。然而,在现有的去中心化存储市场中,明显缺乏成熟的基于计算的产品是大规模数据应用的一个重大阻碍。Bacalhau 和 Shale 等项目正在应对这一挑战,并将其工作重点放在 Filecoin 上。其他值得注意的项目包括 Fluence 和 Space and Time,它们分别在开发人工智能查询系统和计算市场。随着基于计算的产品的蓬勃发展,对计算资源的需求也将随之增长。这种需求可以通过 $RNDR 的价格轨迹来略窥一二,这是一种面向需要额外计算能力的用户的对等 GPU 计算网络。其今年迄今的业绩增长了惊人的 500%,反映出投资者对需求增长的预期。随着这些行业的成熟,生态系统变得更加全面,随着用户的涌入,去中心化存储的采用将大幅增加。
6.2.2 去中心化物理基础设施网络 (DePIN)
去中心化物理基础设施网络(DePIN)是基于区块链的网络,将现实世界的数字基础设施集成到Web3生态系统中。DePIN 的关键领域包括存储、计算、内容交付网络(CDN)和虚拟专用网络(VPN)。这些变革性网络寻求通过采用加密经济激励和区块链技术来提高效率和伸缩性。
DePIN 的优势在于其产生良性循环的潜力,包括三个重要组成部分。首先,协议采用token 经济设计来激励参与者,通常是通过 token 增强实际的应用程序和网络使用。随着经济模式的巩固,代币价格和协议使用量的飙升迅速引起了人们的关注,促进了用户和资本的涌入。这种不断增长的资本池和不断扩大的用户群吸引了更多的生态建设者和开发者进入该行业,使周期永久化。作为 DePIN 的核心赛道,存储也将成为DePIN扩张的主要受益者之一。
6.2.3 人工智能(AI)
人工智能的快速发展有望催化加密生态系统的增长,加速数字资产各个领域的发展。人工智能从两个主要方面为去中心化存储带来激励——通过刺激存储需求和增强去中心化物理基础设施网络(DePIN)的重要性。
随着基于生成式 AI 的产品数量呈指数级增长,它们生成的数据也呈指数级增加。数据的激增刺激了对存储解决方案的需求,从而推动了去中心化存储市场的增长。
尽管 Generative AI 已经出现了显著的增长,但预计它将继续长期保持这种势头。根据EnterpriseAppsToday 的统计,到 2025 年,生成人工智能将占全球所有生成数据的 10%。此外,CAGR 预计生成式 AI 将以 36.10% 的复合年增长率增长,到2032年将达到 1886.2 亿美元,这表明其巨大的潜力。
在过去的一年里,生成式 AI 的受欢迎程度显著提高,Google Trend 和 YouTube 搜索就是明证。这一增长进一步突显了人工智能对去中心化存储解决方案需求的积极影响。
人工智能技术所需的存储和计算资源激增凸显了 DePIN 的价值。随着 Web 2.0 基础设施市场由中央实体控制的垄断,DePIN 成为寻求具有成本效益的基础设施和服务的用户的一种有吸引力的替代方案。通过使资源的获取民主化,DePIN 提供了显著更低的成本,从而增加了采用率。随着人工智能继续向上发展,其需求将进一步刺激 DePIN的增长。反过来,这有助于去中心化存储行业的扩张。
6.2.4 Filecoin 虚拟机 (FVM)
Filecoin 虚拟机(FVM)不仅释放了 Filecoin 本身的潜力,还彻底改变了整个去中心化存储市场。由于 Filecoin 是最大的去中心化存储提供商,占据了很大一部分市场份额,其增长基本上与整个行业的扩张平行。FVM 的出现将 Filecoin 从一个数据存储网络转变为一个全面的去中心化数据经济。除了实现永久存储外,FVM 还将 DeFi 整合到生态系统中,从而产生更多的收益机会,并吸引更大的用户群和资本流入该行业。
截至 6 月 22 日,FVM 上线 100 天时,Filecoin 网络上已经部署了 1100 多个支持 dApp的独特智能合约。此外,已经创建了 8 万多个钱包,启动了与这些 FVM 驱动的 dApp的交互。FVM 账户和合同的总余额已超过 280 万 FIL。目前,FVM 生态系统内的协议都与 DeFi 有关,增强了 $FIL 的效用。随着这种上升趋势的持续,我们预计将出现大量应用程序,这可能会在存储市场引发另一轮增长浪潮。此外,我们还期待其他存储网络引入类似 FVM 的虚拟机机制,引发生态热潮。例如,Crust Network 于 7 月 17 日正式推出了其 EVM 存储,将 Crust 主网、Polkadot 和 EVM 合同相结合,构建了一个新的 Crust 协议,无缝地为任何 EVM 公链提供存储服务。
6.2.5 基于去中心化数据库的社交和游戏
不论是游戏还是社交应用,都需要一个去中心化的数据库服务,该服务能够抵抗审查并实现高速读写。去中心化的数据库能够增强当前的 Web3 应用程序,而且能够支持在不同领域开发新的应用程序和体验。
-
去中心化社交 - 通过将大量的社交数据存储在去中心化数据库中,用户将对自己的数据拥有更大的控制权,能够在平台之间迁移,并释放内容货币化的机会。
-
游戏 - 管理和存储玩家数据、游戏内资产、用户设置和其他游戏相关信息是基于区块链的游戏的一个重要方面。去中心化数据库可以确保这些数据可以由其他应用程序和游戏无缝交换和组合。当前 GameFi 领域的一个热门话题是全链游戏,这意味着将所有核心模块,包括静态资源存储、游戏逻辑计算和资产管理,部署到区块链上。具有高速读写功能的去中心化数据库是实现这一愿景的重要基础设施。
游戏和社交应用程序是互联网用户最多的行业,也是最有可能产生杀手级应用程序的行业,比如今年 2 月爆发的 Demus。我们相信,Web3 游戏和社交应用的爆发也将带来对去中心化数据库的巨大需求。
6.3 公共意识
除了市场前景和技术之外,公众意识是推动去中心化存储市场增长的关键组成部分。中心化存储和去中心化存储的比较清楚地突出了后者的众多优势。然而,吸引更多用户的能力取决于越来越多的人意识到这些好处。这可能是一个漫长的过程,需要整个行业的共同努力。从内容输出到品牌曝光营销,行业从业者必须努力传达去中心化存储如何彻底改变云存储领域。这一努力补充了其他增长因素,放大了市场扩张和技术演变的影响。
7. 结论与展望
总体而言,去中心化存储是一个技术挑战巨大的基础设施行业,投资周期长,但增长潜力巨大。
投资周期长主要是由于分布式技术的迭代周期本身就长,项目开发人员需要在去中心化和效率之间找到微妙的平衡。提供高效、高可用的数据存储和检索服务,同时确保数据隐私和所有权,无疑需要进行广泛的探索。即使是 IPFS 也经常经历不稳定的访问情况,而像 Storj 这样的其他项目也不够去中心化。
该市场的潜在增长空间也备受期待。仅在 2012 年,AWS S3 就存储了1万亿个对象。考虑到一个对象可能在 10 到 100 MB之间,这意味着仅 AWS S3 就使用了 10000 到100000 PB 的存储空间。
根据 Messari 的数据,截至 2022 年底,最大的提供商 Filecoin 的存储利用率仅为 3% 左右。这意味着 Filecoin 上只有大约 600 PB 的存储空间被积极利用。显然,去中心化存储市场仍有很大的发展空间。
而随着人工智能 DePin 的兴起,我们对去中心化存储的未来保持着光明的前景,因为几个关键的增长驱动因素将促进市场的扩张。