Hadoop

开源框架，高校存储，GB-PB级大型数据集

由四个部分组成

Hadoop生态系统

Spark 针对分布式存储的数据进行更高效地处理的一个工具，利用内存中缓存和经过优化的执行方式以实现高速性能
Presto 一种开源的分布式 SQL 查询引擎，针对低延迟的临时数据分析进行了优化
Hive 允许用户通过 SQL 界面使用 Hadoop MapReduce，从而实现大规模分析，以及分布式和容错数据仓储。
Hbase 其实是Hadoop Database的简称，本质上来说就是Hadoop系统的数据库，为Hadoop框架当中的结构化数据提供存储服务，是面向列的分布式数据库。而Hbase管理的是类似于key—value映射的表。

HDFS是分布式文件系统，管理的是存放在多个硬盘上的数据文件，而Hbase管理的是类似于key—value映射的表。

Hbase底层仍然依赖HDFS来作为其物理存储

从字面上我们也能看出，这两者主要是在数据处理延迟性上有不同的要求。

对应这两种计算模式，有流处理和批处理两种概念。流处理，就是对源源不断的数据流进行处理；而批处理，则是对一定规模量的数据进行计算。流处理要求更高的实时性，而批处理则主要在数据处理规模上发力，批处理的典型代表就是Hadoop MapReduce。