HDFS以块为单位,每写完一个block,HDFS就将其自动复制到另两台机器上(有三个副本),类似RAID1

对文件进行处理计算时,通过MapReduce并发计算框架,可以启动多个计算子任务,同事读文件的多个block,相当于实现RAID0的并发访问功能

HDFS  NameNode(名字服务节点)和DataNode(数据存储节点)

NameNode在HDFS中只部署一个实例,提供元数据服务,相当于操作系统中文件分配表(FAT),管理文件名block的分配,维护整个文件系统的目录树结构,DataNode则部署在HDFS集群中其他服务器上,提供真正的数据存储服务

HDFS默认块大小为64MB

应用程序写文件时,首先访问NameNode,将DataNode磁盘空间,按照一定的负载均衡策略,分配若干数据提供client使用

当client写完一个数据块时,再复制两份存储在其他DataNode上,HDFS默认同一份数据,有三份副本

HDFS配合MapReduce等并行计算框架进行大数据处理时,在整个集群上并发读写访问所有的磁盘,无需RAID支持。

HBase 分布式数据库

Hive 数据仓库

HDFS MapReduce 分布式计算框架

作用 处理海量日志