包含标签:spark 的文章
-
大数据技术原理与应用——林子雨老师MOOC知识点一
文章目录 前言 一、大数据概述 前言 大数据导论期末考试内容以林子雨老师的《大数据技术原理与应用》为主,这里整理一下林子雨老师慕课上的习题的知识…… -
山东大学软件工程应用与实践——Spark(13)代码分析
2021SC@SDUSC 1.执行物理执行计划: 经过分析、优化、逻辑计划转换为物理计划的懒执行,最终调用SparkPlan的execute方法执行物理计划。以execution.Projec…… -
Flink基于Java的WordCount,根据滑动窗口动态排序实现
背景 刚学习Flink没多久,之前用Spark做WordCount实现排序很简单,因为Spark做的WC是简单的批处理,直接排序就完事了,但是Flink的流处理需要考虑到状态(Sta…… -
RDD编程基础
一、创建RDD 两种方式: 1.从文件系统中加载数据创建RDD Spark采用textFile()方法来从文件系统中加载数据创建RDD,该方法把文件的URI作为参数,这个URI可以是…… -
Spark3 AQE之自动合并Shuffle partition源码解读
Branch:spark-3.0 有不对的地方欢迎各位大佬批评指正! 相关参数: spark.sql.adaptive.enabled AQE是否开启 spark.sql.adaptive.coalescePartitions.enable…… -
大数据之Spark
Spark介绍 什么是Spark 专为大规模数据处理而设计的快速通用的计算引擎 类 Hadoop MapReduce 的通用并行计算框架 拥有 Hadoop MapReduce 所具有的优点 …… -
Spark 术语与宽窄依赖
术语解释 窄依赖和宽依赖 RDD 之间有一系列的依赖关系,依赖关系又分为窄依赖和宽依赖。 1 .窄依赖:父 RDD 和子 RDD partition 之间的关系是一对一的。或…… -
-
【大数据计算】(四) Spark的安装和基础编程
文章目录 1. 使用Spark Sell编写代码 1.1启动Spark Shell 1.2 读取文件 1.3 编写词频统计程序 2. 编写Spark独立应用程序 2.1 用Scala语言编写Spark独…… -
sparkstreaming+flume+kafka实时流式处理完整流程
目录 sparkstreaming+flume+kafka实时流式处理完整流程 一、前期准备 二、实现步骤 1.引入依赖 2.日志收集服务器 3.日志接收服务器 4、spark集群处理……