Hadoop
开源框架,高校存储,GB-PB级大型数据集
由四个部分组成
- HDFS 分布式文件系统,管理的是存放在多个硬盘上的数据文件
- Yarn 管理和监控集群节点资源的使用情况
- MapReduce 数据运行与计算的框架
- Common 常见Java库
Hadoop生态系统
- Spark 针对分布式存储的数据进行更高效地处理的一个工具,利用内存中缓存和经过优化的执行方式以实现高速性能
- Presto 一种开源的分布式 SQL 查询引擎,针对低延迟的临时数据分析进行了优化
- Hive 允许用户通过 SQL 界面使用 Hadoop MapReduce,从而实现大规模分析,以及分布式和容错数据仓储。
- Hbase 其实是Hadoop Database的简称,本质上来说就是Hadoop系统的数据库,为Hadoop框架当中的结构化数据提供存储服务,是面向列的分布式数据库。而Hbase管理的是类似于key—value映射的表。
Hbase和HDFS关系
HDFS是分布式文件系统,管理的是存放在多个硬盘上的数据文件,而Hbase管理的是类似于key—value映射的表。
Hbase底层仍然依赖HDFS来作为其物理存储
实时计算和离线计算有什么区别?
从字面上我们也能看出,这两者主要是在数据处理延迟性上有不同的要求。
对应这两种计算模式,有流处理和批处理两种概念。流处理,就是对源源不断的数据流进行处理;而批处理,则是对一定规模量的数据进行计算。流处理要求更高的实时性,而批处理则主要在数据处理规模上发力,批处理的典型代表就是Hadoop MapReduce。
离线计算