包含标签:hadoop 的文章
-
Hive架构简述及工作原理
一、什么是Hive? Hive是基于Hadoop的一个数据仓库管理工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL(HQL)查询功能。本质是将SQL转换为…… -
-
HBase常用Shell命令
在使用具体的Shell命令操作HBase数据之前,需要首先启动Hadoop,然后再启动HBase,并且启动HBase Shell,进入Shell命令提示符状态,具体命令如下: cd /usr/l…… -
Hadoop Distributed System (HDFS) 写入和读取流程
一、HDFS HDFS全称是Hadoop Distributed System。HDFS是为以流的方式存取大文件而设计的。适用于几百MB,GB以及TB,并写一次读多次的场合。而对于低延时数据…… -
2.2 搭建Spark开发环境
一、Spark开发环境准备工作 由于Spark仅仅是一种计算框架,不负责数据的存储和管理,因此,通常都会将Spark和Hadoop进行统一部署,由Hadoop中的HDFS、HBase等…… -
Ubuntu下Hadoop的单机安装
云计算实验中要求我们在Linux系统安装Hadoop,故来做一个简单的记录。 · 注:我的操作系统环境是Ubuntu-20.04.3,安装的JDK版本为jdk1.8.0_301,安…… -
【大数据技术Hadoop+Spark】Spark架构、原理、优势、生态系统等讲解(图文解释)
一、Spark概述 Spark最初由美国加州伯克利大学(UCBerkeley)的AMP(Algorithms, Machines and People)实验室于2009年开发,是基于内存计算的大数据并行计…… -
HDFS存储架构和YARN
HDFS存储架构和YARN HDFS HDFS是hadoop的存储单元。在分布式环境中将数据存储为块,遵循主从拓扑。 NameNode 分布式环境的主节点,维护存储在HDFS中的数据…… -
云计算与大数据期末考试题库
单选题 1. 以下哪一项不属于Hadoop可以运行的模式___C___。 A. 单机(本地)模式 B. 伪分布式模式 C. 互联模式 D. 分布式模式 2、Hadoop作者 Martin Fowler …… -
MapReduce序列化【用户流量使用统计】
目录 什么是序列化和反序列化? 序列化 反序列化 为什么要序列化? 序列化的主要应用场景 MapReduce实现序列化 自定义bean对象实现Writable接口 1.实现Writa……