什么是大数据史上最全大数据理论解析 什么是大数据什么是大数据技术( 二 )


四个基本特点如果你在网上搜索大数据,可能会有一千个专家的一千个定义 。大数据的4V特性甚至有5V特性的观点是最普遍最普遍的特性,就是体量、种类、速度、数据价值 。
(1)大量的数据
这个特征是最明显的,也是最基本的特征 。两个基本条件章节提到,硬件的发展和数据生产方式的改变,使得数据量迅速膨胀 。
(2)种类繁多 。
如今的数据已经不再局限于数字 。你写的一段话,拍的一张照片,录的一段音频或视频,都是大数据的组成部分 。这些主要来自我们的视觉和听觉 。在不久的将来,我们的触觉、味觉、嗅觉等数据也将进入机器采集的范畴,从而形成一个完整的数据采集系统 。
(3)高速公路
在大数据的背景下,所有的环节都变得更快了 。这里的高速不仅指数据的生产速度,还包括数据的交换速度和处理速度 。比如你在JD.COM商城浏览商品,每一次点击都会以毫秒级的延迟传到服务器,服务器集群会根据你的动作快速为你推荐新的商品,下一秒就会显示在你的浏览内容中 。显然,如果这个过程太慢,你可能在后台的数据计算完成之前就已经关掉了JD.COM,去了淘宝 。那岂不是会流失客户?所以,高速也是大数据系统一直执着追求的目标 。
(4)数据值
我们有大量的数据,我们必须期待这些数据能给我们带来一些价值 。显然,大数据是有价值的,但是大数据的价值有一个特点——价值密度低 。
比如危险品车间的监控摄像头24小时连续记录并回传数据,但这些数据通常是不变的 。日复一日的记录,每隔一段时间就需要删除,以腾出存储空间空 。出现异常时,比如视频中发现的高温点,可能是车间有火焰 。此时需要立即调用消防系统灭火,防止危险发生 。像这样有价值的数据,可能只是摄像头记录下来的微小片段,所以数据的价值密度较低 。
以上是大数据的一些重要特征 。换句话说,符合这些特征的数据基本可以认为是“大数据” 。
五大发展里程碑萌芽:1980年,大数据这个词是阿尔文·托夫勒在他的新书《第三次浪潮》中提出的 。不仅如此,他还声称大数据是第三次浪潮的华彩乐章,这就是大数据一词的由来 。阿尔文·托夫勒(Alvin toffler)是著名的未来学家,他成功预测了大数据的爆发 。
成长期:2008年9月,《自然》杂志还刊登了一篇封面专栏,名为《大数据》 。标志着大数据的概念已经成为举世公认的事实 。在这个阶段,大数据正式诞生 。在中国的这段时间,以腾讯、网易、新浪、搜狐、百度为代表的主流互联网公司,依靠社交、搜索、门户等产品迅速崛起 。
2004年左右,Google发表了三篇论文,也就是我们常说的大数据三驾马车:
分布式文件系统GFS,解决了数据的底层存储问题;
MapReduce,大数据分布式计算框架,解决数据处理和运算问题;
NoSQL数据库系统BigTable解决了数据的有序组织问题 。
成熟:一个叫DougCutting的码农开了一家小公司,想做一个超越Google搜索的开源搜索引擎,虽然Google搜索在当时基本上是一家独大的状态 。他首先开发了一个名为Nutch的项目,但是随着Google发表的troika论文,他将目标转向了实现GFS和MapReduce,并试图将其集成到他的Nutch项目中 。后来这个模块被雅虎拿走了,于是Doug Cutting带着他的项目加入了雅虎,拿着他儿子的一个大象玩具给这个项目命名为Hadoop 。
高潮期:2008年以后,随着网络、存储、计算等硬件的成熟;智能手机成为移动服务的标准;Hadoop项目不断成熟 。大量依赖大数据的个性化app在这一阶段如雨后春笋般出现,并迅速成长 。社交网络的脸书,云服务的亚马逊,内容服务的今日头条等 。都是这段时间发展起来的,赚了不少钱 。

推荐阅读