包含标签:spark 的文章
-
S抽取Mysql
sq1.0 用Scala抽取Mysql指定数据到Hive的ODS层的指定分区表中 object demo_extractjob { def main(args: Array[String]): Unit = { System.setProper…… -
聊聊访问者模式与其在Calcite/Flink中的应用
前言 “访问者模式”在之前的文章里已经出现过几次了,择日不如撞日,今天接着聊吧。 The Visitor Pattern 访问者模式属于GoF设计模式分类中的行为型模式。它…… -
大数据实训
Frist day 工具 架构 数仓架构 Linux-简单使用部署 工具 vmware15 Linux centos7.5 Hadhoop3.2.1 Hive3.1.2 SpringBoot Echart zk3.4.5 架构 编码…… -
大数据技术原理与应用——林子雨老师MOOC知识点一
文章目录 前言 一、大数据概述 前言 大数据导论期末考试内容以林子雨老师的《大数据技术原理与应用》为主,这里整理一下林子雨老师慕课上的习题的知识…… -
山东大学软件工程应用与实践——Spark(13)代码分析
[email protected] 1.执行物理执行计划: 经过分析、优化、逻辑计划转换为物理计划的懒执行,最终调用SparkPlan的execute方法执行物理计划。以execution.Projec…… -
Flink基于Java的WordCount,根据滑动窗口动态排序实现
背景 刚学习Flink没多久,之前用Spark做WordCount实现排序很简单,因为Spark做的WC是简单的批处理,直接排序就完事了,但是Flink的流处理需要考虑到状态(Sta…… -
RDD编程基础
一、创建RDD 两种方式: 1.从文件系统中加载数据创建RDD Spark采用textFile()方法来从文件系统中加载数据创建RDD,该方法把文件的URI作为参数,这个URI可以是…… -
Spark3 AQE之自动合并Shuffle partition源码解读
Branch:spark-3.0 有不对的地方欢迎各位大佬批评指正! 相关参数: spark.sql.adaptive.enabled AQE是否开启 spark.sql.adaptive.coalescePartitions.enable…… -
大数据之Spark
Spark介绍 什么是Spark 专为大规模数据处理而设计的快速通用的计算引擎 类 Hadoop MapReduce 的通用并行计算框架 拥有 Hadoop MapReduce 所具有的优点 …… -
Spark 术语与宽窄依赖
术语解释 窄依赖和宽依赖 RDD 之间有一系列的依赖关系,依赖关系又分为窄依赖和宽依赖。 1 .窄依赖:父 RDD 和子 RDD partition 之间的关系是一对一的。或……