Hadoop——第一部份 Hadoop入门——一、Hadoop概述

第一部份 Hadoop入门

一、Hadoop概述

  • 介绍
  • 发行版本
  • 特点
  • 组成
  • 大数据技术生态体系

1.1 Hadoop概念

  • Hadoop是Apache基金会开发的分布式系统基础架构
  • 主要解决海量数据存储和分析计算
  • 广义Hadoop指Hadoop生太圈

1.2 Hadoop发行版

  • Apache原始开源版
  • Cloudera商业版CDH
  • Hortonworks商业版HDP
  • 两家公司合并后的商业版CDP

1.3 Hadoop特点

  • 高可靠——多副本
  • 高扩展——动态增加服务器
  • 高效——并行工作
  • 高空错——失败任务重新分配

1.4 Hadoop组成

功能 1.x 2.x
计算 MapReduce MapReduce
资源调度 MapReduce Yarn
数据存储 HDFS HDFS
辅助工具 Common Common
  1. HDFS
    HDFS(Hadoop Distributed File System)是Hadoop分布式文件系统。
  • NameNode(nn)——文件源数据
  • DataNode(dn)——文件数据
  • Secondary NameNode(2nn)——nn定期备份(非热备)

源数据,是描述数据的数据,用于描术数据的属性信息

  1. Yarn
    Yarn(Yet Another Resource Negotiator)是Hadoop资源管理器。
  • ResourcesManager(RM)——集群资源管理器
  • NodeManager(NM)——节点管理器
  • ApplicationMaster(AM)——应用管理器
  • Container——容器(独立服务器)
  1. MapReduce
  • Map阶段——并行处理输入数据
  • Reduce阶段——结果汇总
  1. 运作方式

1.5 大数据技术生态体系

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇
下一篇>>