Hadoop学习_大数据核心概念

Hadoop


Hadoop是Apache软件基金会旗下的一款Java开源软件框架,提供了大数据存储、计算的一套解决方案。

 • Hadoop HDFS 分布式文件系统:解决海量数据存储
 • Hadoop MAPREDUCE 分布式运算编程框架:解决海量数据计算
 • Hadoop YARN 作业调度和集群资源管理框架:解决集群资源任务调度

 1. 海量数据如何存储?

  分布式存储

 2. 海量数据如何计算?

  分布式计算


1. 大数据导论

1.1 大数据概念

数据:

 • 是事实或观察的结果
 • 是对客观事物的逻辑归纳
 • 适用于表示客观事物的未经加工的原始素材

数据的产生:

 • 对客观事物的计量记录产生数据

数据存储单位:

在这里插入图片描述

大数据:

 • 是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据结合
 • 是需要新处理模式才能具有更强的决策力、洞察发现里和流程优化能力的海量、高增长率

大数据时代:

 • 《大数据时代》纪录片

挑战:

 • 存储
 • 计算

1.2 大数据特点5V

 • Volume 数据体量大

  • 采集数据量大
  • 存储数据量大
  • 计算数据量大
  • TB、PB级别起步
 • Variety 种类、来源多样化

  • 种类:结构化(便于解析的数据)、半结构化(json)、非结构化
  • 来源:日志文本、图片…
 • Value 低价值密度

  • 信息海量但是价值密度低
  • 深度复杂的挖掘分析需要机器学习参与
 • Velocity 速度快

  • 数据增长速度快
  • 获取数据速度快
  • 数据处理速度快
 • Veracity 数据的质量

  • 数据的准确性
  • 数据的可信赖度

1.3 大数据应用场景

 • 电商领域

  精准广告位、个性化推荐、大数据杀熟

 • 传媒领域

  精准营销、猜你喜欢、交互推荐

 • 金融领域

  信用评估、风险管控、客户细分、精细化营销

 • 交通领域

  拥堵预测、智能红绿灯、导航最优规划

 • 电信领域

 • 医疗领域

  智慧医疗、疾病预防、病原追踪

 • ……

1.4 大数据业务分析基本步骤

 1. 明确分析目的和思路

  • 目的是整个分析流程的起点

  • 思路是使分析框架体系化

  • 数据分析方法论:营销管理相关理论

   用户行为理论、PEST分析法、5W2H分析法、逻辑树分析法、4P营销理论

 2. 数据收集

  • 数据从无到有的过程

  • 数据传输搬运的过程

   • 业务数据 RDBMS

   • 日志数据

   • 爬虫数据

   • 互联网公开数据

 3. 数据处理

  数据清洗、数据转换、数据提取、数据计算

 4. 数据分析

  • 用适当的分析方法及工具,对处理过的数据进行分析
  • 数据挖掘本质是一种高级的数据分析方法
 5. 数据展现

  数据可视化

 6. 报告撰写

1.5 大数据部门组织架构

在这里插入图片描述

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇
下一篇>>