包含标签:spark 的文章
-
【Spark源码分析】Spark的RPC通信一-初稿
Spark的RPC通信一-初稿 文章目录 Spark的RPC通信一-初稿 Spark的RPC顶层设计 核心类`NettyRpcEnv` 核心类`RpcEndpoint` 核心类`RpcEndpointRef` Sp…… -
利用PySpark进行商业洞察与可视化
利用PySpark进行商业洞察与可视化 引言 数据集与技术栈 数据集:YELP数据集 技术栈:Flask、MySQL、Echarts、PySpark 分析维度与功能 创新点与应用 …… -
【大数据处理框架】Spark大数据处理框架,包括其底层原理、架构、编程模型、生态圈
文章目录 Spark框架的底层原理 Spark框架的架构 Spark Core Spark SQL Spark Streaming Spark MLlib Spark GraphX Spark框架采用的编程模型 Spark生…… -
Java操作MongoDB报错 java.lang.IllegalStateException: state should be: open
问题描述 我在使用Spark整合MongoDB,涉及到了MongoDB Colletion中的文档删除与新建(也就是更新文档)时,出现了报错java.lang.IllegalStateException: st…… -
-
Spark资源规划-资源上线评估
1、总体原则 以单台服务器 128G 内存,32 线程为例。 先设定单个 Executor 核数,根据 Yarn 配置得出每个节点最多的 Executor 数量,每个节点的 yarn 内存/…… -
数据仓库相关
在阿里巴巴的数据体系中,我们建议将数据仓库分为三层,自下而上为:数据引入层(ODS,Operation Data Store)、数据公共层(CDM,Common Data Model)和数…… -
-
数据湖架构Hudi(二)Hudi版本0.12源码编译、Hudi集成spark、使用IDEA与spark对hudi表增删改查
二、数据湖hudi快速上手 2.1 编译hudi源码 Hadoop 3.1.3 Hive 3.1.2 Flink 1.13.6,scala-2.12 Spark 3.2.2,scala-2.12 2.1.1 环境准备 [r…… -
Kafka与Spark案例实践
1.概述 Kafka系统的灵活多变,让它拥有丰富的拓展性,可以与第三方套件很方便的对接。例如,实时计算引擎Spark。接下来通过一个完整案例,运用Kafka和Spark来……