区块链如何防止存储欺诈？

数据欺诈和数据不可信的存在，给金融监管、风险控制等诸多应用场景带来了严峻挑战，也正在成为数据大规模互联和利用的一大障碍。数据的真实性早已影响到社会的各个领域，在更加依赖数据的人工智能时代，这种影响会更加突出。

任何一个环节都可能发生数据造假。其中，在数据存储过程中往往更容易造假:因为在现有的数据存储技术下，数据所有者、管理者或委托存储方有能力单方面随意篡改或删除数据。

既然数据不能被信任的一个重要原因是数据可以被单方面篡改和删除，那么如何避免这个问题自然引起了业内的高度关注。区块链和分散存储技术的诞生对遏制数据篡改起到了一定的作用，在市场上也得到了初步验证。

许多企业已经开始尝试使用区块链来存储数据，例如，在货物可追溯性和其他场景中。其做法往往是将重要数据直接写入块中。这种简单粗暴的做法，确实解决了数据防删除的需求，进而满足了部分数据的可信共享，但也存在很多问题:

首先，不能存储海量数据:不适合在块中存储包括多媒体数据在内的大数据，否则块大小难以控制，使得区块链的可扩展性变差。这就导致了业务中需要对原始数据进行取舍，只选择少量必要的数据存储在块中，但这样会降低可信数据的丰富性。

其次，数据访问效率低:首先，由于打包过程的存在，区块链数据存储一般不用于高速数据写入。其次，由于遍历数据读取方法，区块链不能支持快速索引，更不用说SQL了。

再次，数据维护效率低:区块链因其顺序引用特性，不支持对单个历史数据的删除和修改(除非全链再生，但这是区块链不应该鼓励的行为)。这里需要注意的是，“停止单方非授权篡改”和“完全无法删除修改”是完全不同的两回事。前者是保证相互信任的技术手段，后者可能属于必要功能点的丧失。

最后，还有数据丢失的风险:这个风险列表指的是采用中本聪最长链原则的战俘区块链系统。在这种区块链中，当出现链叉时，最长(或最重)的链分支将被保留，其他分支将被丢弃，这使得区块链中的数据实际上被“颠覆”并永远丢弃。自私挖掘等攻击的存在会加剧这种风险。这在数据存储应用中是不可接受的。

正是由于上述原因，直接使用传统区块链进行数据存储显然无法满足大量实际场景下对可信数据存储的需求。这个问题引起了很多讨论，比如“什么数据应该存储在链中，什么数据应该存储在链下”。这些问题的出现，根本上是由于区块链本身的存储效率和容量有限。毕竟在数据库时代，我们从来不谈“什么数据应该存储在数据库之外”这个问题。

近年来也出现了一些产品，为解决上述区块链数据存储效率低的问题提供了有益的实践，如:

IPFS，R3的Corda，腾讯TrustSQL等。但是，这些产品在数据可信存储方面仍然存在或多或少的问题，具体来说:

IPFS生成数据内容的哈希摘要，在多个节点之间分发。单个持有者没有完整的数据，这在一定程度上保护了数据隐私。而IPFS只能被修改和获知(因为哈希值会随着内容的变化而变化)，没有访问控制等数据安全措施，整体上还是很难满足企业级的服务需求。

Corda是为金融交易的隐私需求量身定制的存储产品，专注于数据存储的隐私。因此，Corda没有全球分类账，需要证人在场。这是一种私有但不安全可靠的数据存储方案。

TrustSQL等国内同类产品采用了简单直观的设计思路，这也是目前国内最常见的做法，即先将数据存储在数据库(或IPFS)中，再将操作记录和数据哈希存储在链表中。与TrustSQL相比，一些类似的产品，如带共享位的ChainSQL，进一步增强了对SQL的支持。这类产品满足了数据“可审计”和“透明监管”的要求，但缺点是仍然无法消除数据本身的删除，只能“以删除而知”；另外，关键数据的安全性依赖于参与节点的全副本存储，存储成本略高。而且数据隐私的设计还是不足的。

针对上述产品的不足，五元科技通过原始技术创新探索出了一条不同的道路，推出了自主知识产权产品“ImSQL”，旨在提供一种真正能够保证数据不会被篡改或私自删除的可信存储产品。

ImSQL(不可变SQL数据库)是基于区块链和分布式存储技术的新型可信数据存储解决方案，完美解决了“防止非授权删除”、“保护数据隐私”、“降低存储成本”等核心问题，为大数据时代的可信存储和数据共享提供了可靠的技术路径。

与现有产品相比，ImSQL具有以下突出优势:

1.彻底杜绝单方擅自篡改、删除数据的行为。通过存储和检索两方面的多方验证，消除存储过程中的篡改和删除，充分保证了数据的真实性和可信性，使应用中的参与者能够相互信任，放心采用其他数据，数据能够支持准确的可追溯性和可追究性。

2.杜绝单点故障。多方* * *同时使用数据和维护数据，数据不仅仅存储在一方，从根本上实现了分布式数据的可信* * *共享池，既避免了单点失效的风险，又提高了数据共享的效率。

3.碎片化存储满足数据隐私要求，任何一方都无法掌握完整的数据，从而解决了传统云计算集中存储或区块链全副本存储存在的数据隐私问题。除了数据所有者之外，没有其他存储保管人可以获得完整的数据。

4.出色的数据访问性能:ImSQL单节点写入速度可达3000 TPS，读取速度10000 QPS。此外，ImSQL还具有支持SQL语言、横向扩展、优秀的访问性能和体验等优势，可以充分利用set qun的扩展将上述指标进一步提升数倍。

5.满足多媒体等大数据的高效访问需求，支持高效访问、高效索引和高效扩展，真正胜任大数据业务场景，实现视频等数据的可靠高效存储，从而为视频监控等场景提供前所未有的可信安全体验。

6.瓦片设计的使用大大降低了每个存储参与者的存储压力和成本，让更多的参与者有机会加入和参与到数据可信的生态中来。

7.分布式架构兼容轻节点，鼓励更多节点参与。没有超级节点，参与存储的节点地位相同，更好地保证了系统的可靠性和抗毁性。此外，如果节点选择运行在轻拷贝模式下，可以只存储一部分数据，这样其存储压力大大降低，义务减轻，但功率可以不受影响。

ImSQL考虑了海量存储、快速索引、横向扩展等数据库属性，也考虑了数据可以立即存储和固化的区块链特性。在很多关注数据可信存储和共享的领域，有望带来前所未有的使用体验和便利，比如实现供应链中数据的互通互信，实现政府或大型企业各部门之间的数据互通，支持可信追溯相关的海量数据存储。

以政府大数据建设为例。在许多不同的政府部门和实体之间实现高效的数据互联一直是一个难题。目前的做法往往需要建立独立的大数据部门，构建独立的数据存储系统，从不同实体中拉取相关数据，进行分析重构，然后实现可视化。这往往会导致大量的前期费用，包括人、钱、物等显性费用，也包括人员配备、权责、时间成本、部门围墙等隐性费用。同时，独立大数据部门的存在，也隐含着需要一个可信的第三方来背书，甚至承担责任。如果在这种情况下使用ImSQL作为数据交换的底层平台，就可以更有效地完成这项任务，具体体现在:

不需要依赖第三方实体的背书:不同实体之间的数据可以直接写入ImSQL，写入后会立即保存，任何一方都不能再私自篡改和删除数据，从而保证了其他实体在随时访问数据时的可用性、一致性和可信性；

无需建立和维护额外的数据存储系统:数据由所有参与实体存储和维护，自然共享和访问，不降低使用效率，降低系统实施和维护成本。同时，ImSQL的数据分片存储技术可以同时实现数据共享和隐私保护，即所有实体存储的数据都可以是不完整的碎片，只有那些有访问权限的实体才能掌握密钥对碎片数据进行搜索、组合和解释。

综上所述，作为一种可信、防篡改的数据存储技术，ImSQL完全继承了区块链数据安全的优势，并突破了区块链在效率上的弱点，为用户提供了与数据库一样高效的数据访问体验。ImSQL是区块链和数据库技术相结合产生的新类别，是实现可信数据存储的最佳选择。