随着社会的发展,大数据越来越广泛的进入到我们的生活当中,大数据的框架结构复杂,但Hadoop 以其低成本和高效率的特性赢得了市场的认可。今天我们就来学习一下关于大数据—Hadoop框架结构都有哪些。
Hadoop是什么?
Hadoop是基于JAVA语言开发的Apache开源框架,以分布式文件系统 HDFS(Hadoop Distributed File System) 和 MapReduce(Google MapReduce 的开源实现) 为核心的 Hadoop,为用户提供了系统底层透明的分布式基础构架。
用户可以利用 Hadoop 轻松地组织计算机资源,从而搭建自己的分布式计算平台,并且可以充分利用集群的计算和存储能力,完成海量数据的处理。
Hadoop架构以三个核心模块组成:Hadoop通用、Hadoop YARN、Hadoop HDFS、Hadoop MapReduce。那么,我们就来了解一下这三个核心模块:
1、集群资源管理器——YARN
YARN 主要包含三大模块:Resource Manager(RM)、Node Manager(NM)、Application Master(AM)。其中,Resource Manager 负责所有资源的监控、分配和管理;Application Master 负责每一个具体应用程序的调度和协调;Node Manager 负责每一个节点的维护。对于所有的 applications,RM 拥有绝对的控制权和对资源的分配权。而每个 AM 则会和 RM 协商资源,同时和 Node Manager 通信来执行和监控 task。
2、分布式文件系统——HDFS
HDFS(Hadoop Distributed File System)是 Hadoop 项目的核心子项目,主要负责集群数据的存储与读取,HDFS 是一个主/从(Master/Slave) 体系结构的分布式文件系统。HDFS 支持传统的层次型文件组织结构,用户或者应用程序可以创建目录,然后将文件保存在这些目录中。文件系统名字空间的层次结构和大多数现有的文件系统类似,可以通过文件路径对文件执行创建、读取、更新和删除操作。但是由于分布式存储的性质,它又和传统的文件系统有明显的区别。
3、分布式计算框架——MapReduce
MapReduce框架由每个集群节点的一个单一主控JobTracker和一个从属TaskTracker构成。主控JobTracker负责资源管理,跟踪资源消耗/可用性,调度从属TaskTracker上的作业组件任务,监控这些任务,并重新运行失败任务。从属TaskTracker按照主控JobTracker的指示执行任务,并定期向主控JobTracker提供任务状态信息。
关于大数据Hadoop的框架结构,以上为大家做了简单的介绍,想要学好大数据,这一部分是很重要的。如有不了解的地方,可以咨询加米谷教育的专业客服,随时为你解答!