在《0基础学习区块链技术——入门》一文中,我们结合可视化工具,直观地感受了下区块的结构,以及链式的前后关系。
本文我们将抛弃之前的知识,从0开始思考和推演,区块链技术可能是如何构思出来的。
去中心
在一般的思维中,我们在一个“中心”保存信息,这样即方便又高效。但是带来的问题是:篡改起来容易。因为只要攻克“中心”这样一个对象,就可以修改全部信息。(下图中:人脸表示用户,红色6角星表示攻击,红色方块表示被篡改的数据)
那怎么变得更加安全一点呢?一个朴素的想法就是——再加一个“中心”。
这样攻击者需要攻克两个“中心”才能达到修改历史数据的目的。
按照这个思路,如何做到更加安全呢?对的,增加更多的“中心”。这样攻击者需要攻克更多的“中心”才能修改数据。
随着“中心”的增多,它们就越来越显得不那么“中心”了。因为每个“中心”都对等,没谁权重高,没谁权重低,于是丧失了“中心”这个概念。这就是“去中心化”。
预防篡改
如何防止篡改历史数据?实际上,“防止”是不太可能。我们唯一能做的就是“提高篡改成本”。像上面增加“中心”数量一样,它并不能避免全部“中心”被攻克,只是提高了被攻克的难度。
那如何提高篡改成本呢?一种朴素的想法是:给数据加密。但是数据加密需要秘钥,这个秘钥如果被偷窃,会导致整个方案,或者某个数据中心的数据全部被攻克。
最关键的问题是:被篡改后,需要对比其他“中心”解密后的数据,才能感知该中心数据出现了问题。
如何可以快速感知数据变动?那就是指纹计算。即我们对数据计算出一个唯一性指纹。一旦数据有任何变动,之前的指纹都会失效。
这样如果篡改者修改了历史数据,历史数据所在的数据区域指纹就失效,这个时候篡改者就需要重新计算新的指纹。
在区块链技术中,指纹计算使用的Hash算法,有SHA-256等。不同算法算出来的数据(指纹)长度不一样,但是相同算法算出的长度是一致的。需要说明的是,目前的hash算法都存在碰撞的可能性(即不同的数据,算出相同的hash值),只是概率很低罢了。
付出代价
如果篡改者手速非常快,可以一下就算出Hash。那不就意味着我们这种方式很容易被攻克吗?怎么办?增加算法的难度。因为Hash算法不具备可预测性,也不可逆。我们只能使用“暴力”计算的方式。这样我可以提出一些规则,比如要求Hash出来的值需要符合某些条件。但是由于数据到Hash值存在一一对应的关系,如果要求Hash值改变,则需要原始数据也改变。于是我们就引入Nonce这个概念,它会成为原始数据的一部分,从而让Hash值可以随着它改变而改变。但是这种改变是不可预测的,即我们不知道Nonce为什么值时,算出的Hash符合某种规律。我们唯一能做的就是算出来,然后查看该值是否符合规律。
一种比较容易想到的规则,就是要求算出的的Hash值前面或者后面几位为0。
在《0基础学习区块链技术——入门》中,我们看到例子中有5种规则,实际规则会更复杂,要求的暴力计算时间也越长。
方便存储
如果我们将数据保存到一个加密区域,则新增数据时需要解密原始数据,然后把新数据加入后再加密。
这个过程略显繁琐。
有没有更简单的方式?可以一条数据加密一次,不和历史数据掺和到一起。但是在预防篡改这块,这个方案显得无能为力。
这样我们就又回到指纹的方案。
那么是对全部数据进行指纹?还是对单条数据进行指纹?(实际两者都不是)
如果对全部数据进行指纹计算,就会面对一个“以有限对抗无限”的问题。因为随着数据量的增加,要将全部数据每次都计算一次,将变得越来越难以实现。比如现在比特币交易数据有几百G,如果每次有新的数据进来,都要对着几百G数据进行Hash,则机器资源消耗会更大。
那么对单条数据进行指纹?这似乎只能在检查单个数据时,可以发现被篡改(因为数据的Hash因为数据被篡改而改变),但是不能快速发现整体数据都变得不可信了。
于是,基于一些计算机数据结构的思想,可以将数据通过链式关系关联起来。起到“铰链”作用的就是前一个区块的Hash。
如果链中某个区块数据变了,它的Hash也会改变,而它后面的区块的Pre hash还是指向原始值,这样区块链的链式关系就断开了,该链就出现问题了。