Hadoop

开源框架,高校存储,GB-PB级大型数据集

由四个部分组成

Hadoop生态系统

Hbase和HDFS关系

HDFS是分布式文件系统,管理的是存放在多个硬盘上的数据文件,而Hbase管理的是类似于key—value映射的表。

Hbase底层仍然依赖HDFS来作为其物理存储

实时计算和离线计算有什么区别?

从字面上我们也能看出,这两者主要是在数据处理延迟性上有不同的要求。

对应这两种计算模式,有流处理和批处理两种概念。流处理,就是对源源不断的数据流进行处理;而批处理,则是对一定规模量的数据进行计算。流处理要求更高的实时性,而批处理则主要在数据处理规模上发力,批处理的典型代表就是Hadoop MapReduce。

离线计算