更新时间:2022-02-18 08:28:24作者:佚名
21世纪什么最贵?葛优在《天下无贼》里告诉我们,答案是人才,但他没想到的是,短短八年后的2012年,奥巴马向全世界宣布,数据才是新时代下最有价值的存在,对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产,“数据是未来的新石油”。
与不可再生的石油不同,海量的数据仍在每天以惊人的速率增长,而在之江实验室网络空间大搜索研究中心研究员安静斌看来,在可见的未来,数据将继续以指数型的趋势实现爆炸式的增长,“我们以后会有量子计算、有5G、6G的信息基础设施、有各种各样的可穿戴设施和物联网,这些都是可以看到的未来,它们所带来的庞大数据量是现在远远不能比的。”
如何从海量且依旧在爆炸增长的数据中,挖掘出更多能够转化为实际效益的“黄金”,这实际上就是人们口中的“大数据”、安静斌所称的“数据科学”所希望探索的重要课题,而对于普通人而言,这些经过分析、转化之后的数据信息,最终如同逐渐汇聚的涓涓细流,潜移默化中影响我们生活的方方面面。
联通孤岛
“数据科学的诞生,实际上是数据量暴增的必然结果,也就是我们所说的量变产生质变,而随着大数据时代的到来,除了海量性之外,数据也产生了新的特性,包括多元性、易构性、稀疏性。”从一个计算机专业毕业的博士开始,经历了从数据库时期到大数据时代的转变,安静斌与数据打了20余年的交道,他深刻感知着这些变化的轨迹。
安静斌回忆,在信息化时代的初期,数据其实十分简单,政府部门、企业部门对内部员工的信息登记和管理,构成了最早的数据,“简单来说,就是把员工的姓名、身份证号码、联系方式这些数据,和建档案一样,以文件的形式一个个保存起来,但是没有相应的工具,检索起来很麻烦,需要一个一个打开去查找。”
其后,伴随着互联网的普及,数据量开始增加,为了方便快速检索、提高数据的管理效率,出现了数据库的技术,安静斌介绍,作为信息管理系统最底层的一个核心技术,数据库有着很强的目标性,“这数据库中,每一个字段的含义是非常确切的,而且数据都是有用的。”
以一个银行的数据系统为例,在最早的银行数据管理系统中,用户的账户余额是最核心的数据,也就是说,银行除了保存用户的身份信息数据,实时更新用户的账户余额数据之外,对于用户的转账、收入、支出等等业务都不会记录。
而到了大数据时代,银行会把用户账户上的转账、业务、资金流转等数据保存下来。
在这样的情况下,数据的价值不再像原本那样集中,但海量的数据中,隐藏着用户的消费习惯、收入支出水平、潜在的业务办理可能等等信息,例如,一个经常在转入余额后短时间内就完成消费的账户,可能就是推广贷款业务的潜在客户。“这些海量的数据就像是沙子,数据科学现在要做的,就是利用我们现在信息系统的高处理能力,在里面淘金。”