“大数据”已经过时了吗？

发布时间：2019-03-20

“大数据”与其说是过时了，倒不如说还没有真正开始。只要摩尔定律还在生效，每过18个月电子技术就要翻一番的话，那么大数据时代就只能在路上。这是因为，随着计算技术的不断进步，存储成本的不断降低，人们有越来越多的资本去收集更多的数据，进行更颗粒化的分析。然而，在传统的数据分析中，当数据量大到一定的程度时，分析结果就不会进一步优化了。

举一个最简单的线形分类的例子，对于平面上一堆被零散放置的两种球（红球和蓝球），通过画一条直线尽可能好的将两类球分开，然后对于新的放进来的球（可能被包起来），单凭直线的划分去判断新球的颜色。很容易就可以看出，由于我们分类的模型相当简单（只有一条直线），那么海量的数据可能对于提升模型精度的意义不是太大，这也是传统数据科学遇到的问题。机器学习（数据科学主要的分析手段）方法遇到的主要瓶颈也在这里，在这种情况下，更多的数据是没有更大意义的。

深度学习使得这一瓶颈得到突破，这一学习方法简单来说就是通过多层、多个计算算子进行分析，从而可以建立足够复杂的模型，以提高数据分析能力。这种方法也被称为神经网络，因为每个算子就像神经一样微小而彼此相连，当然这一科学本身并没有仿生学的意义，只是仅仅看上去与神经相类似而已。在这种学习方法下，更大的数据量通常可以带来更高的精度，而且还存在精度从量变到质变提升的可能，因此数据科学家们对数据的需求也突然增大，大数据科学也因此应运而生。

对深度学习的诟病之一，是由于模型开始复杂起来，人们没有办法再像一条直线那样容易理解机器分类的标准规范。当存在理解的黑洞时，机器学习在一部分人眼中也就成了巫术。比如，给模型提供一批好的作文和不那么好的作文，经过学习，机器可以对新的作文进行评分，这些评分仅仅是根据前面提供的素材学习而来的,但是机器无法给出详细的评分理由，这就让结果的信任度大打折扣。不过，近来有关于深度学习算法原理的解释，这可能是把深度学习从“巫术”变成有理论支撑的科学的第一步。

无论怎么说，随着深度学习的快速发展，大数据应该只是仅仅拉开了幕布一角，远没有到全面降临的时刻。而随着深度学习、人工智能（后者往往是以前者为基础的）的快速发展，对数据需求的量级也会越来越多，到那时，可能才是真正的“大数据时代”。

来源：简书