GFS解决大批量、海量数据储存问题
补充说明:
微软技术三宝分别是:GFS、MapReduce和BigTable。
Hadoop实际上就是微软三宝的开源实现,HadoopMapReduce对应GoogleMapReduce,HBase对应BigTable,HDFS对应GFS。区别是微软底层是c++,而hadoop底层是用java。
2.大数据的数据单位
按次序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。(进率2^10)
大数据的起始计量单位起码是PB级别。
处理过PB级别的大数据是指:搭建的处理集群每晚处理PB数据量(单次估算任务的数据量在PB级别)
3.大数据概念
维基百科定义:
大数据(Bigdata或Megadata):大数据,或称巨量数据、海量数据、大数据,指的是所涉及的数据量规模巨大到难以通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能剖析的信息。
(简单理解:难以用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合)
4.大数据特征
业界一般使用4V来描述:
海量性(Volume):第一个特点是数据量大,包括采集、存储和估算的量都十分大。大数据的起始计量单位起码是P(1000个T)、E(100万个T)或Z(10亿个T),而我们生活中每天都会形成大量的数据。
多样性(Variety):第二个特点是种类和来源多元化。包括结构化、半结构化和非结构化数据,具体表现为网路日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。
价值性(Value):第三个特点是数据价值密度相对较低数据建模基础教程,意思是说大部份数据没有参考意义,少部份数据会产生高价值,例如行车记录仪记录的大部份视频是无用的,只有当出现车祸时才能彰显出价值。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低数据建模基础教程,怎么结合业务逻辑并通过强悍的机器算法来挖掘数据价值,是大数据时代最须要解决的问题。
高速性(Velocity):第四个特点数据下降速率快,处理速率也快,时效性要求高。例如搜索引擎要求几分钟前的新闻才能被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的明显特点。
5.大数据的价值
在总数据量相同的情况下,与某些剖析独立的大型数据集(DataSet)相比,将各个大型数据集合并后进行剖析可得出许多额外的信息和数据关系性,可拿来察觉商业趋势、判定研究质量、避免癌症扩散、打击犯罪或测定实时交通路况等;这样的用途正是小型数据集兴起的诱因。
6.大数据技术框架
7.大数据估算模式
8.大数据与云估算、物联网之间的关系
暂无评论内容