包含标签:spark 的文章
-
RDD编程基础
一、创建RDD 两种方式: 1.从文件系统中加载数据创建RDD Spark采用textFile()方法来从文件系统中加载数据创建RDD,该方法把文件的URI作为参数,这个URI可以是…… -
Spark3 AQE之自动合并Shuffle partition源码解读
Branch:spark-3.0 有不对的地方欢迎各位大佬批评指正! 相关参数: spark.sql.adaptive.enabled AQE是否开启 spark.sql.adaptive.coalescePartitions.enable…… -
大数据之Spark
Spark介绍 什么是Spark 专为大规模数据处理而设计的快速通用的计算引擎 类 Hadoop MapReduce 的通用并行计算框架 拥有 Hadoop MapReduce 所具有的优点 …… -
Spark 术语与宽窄依赖
术语解释 窄依赖和宽依赖 RDD 之间有一系列的依赖关系,依赖关系又分为窄依赖和宽依赖。 1 .窄依赖:父 RDD 和子 RDD partition 之间的关系是一对一的。或…… -
-
【大数据计算】(四) Spark的安装和基础编程
文章目录 1. 使用Spark Sell编写代码 1.1启动Spark Shell 1.2 读取文件 1.3 编写词频统计程序 2. 编写Spark独立应用程序 2.1 用Scala语言编写Spark独…… -
sparkstreaming+flume+kafka实时流式处理完整流程
目录 sparkstreaming+flume+kafka实时流式处理完整流程 一、前期准备 二、实现步骤 1.引入依赖 2.日志收集服务器 3.日志接收服务器 4、spark集群处理…… -
structured streaming 入门级初使用(一)
1、准备 导入依赖 <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</ar…… -
-
提交运行 spark 任务到 kubernetes
零、spark on k8s 示意图 一、目标 运行 spark 任务到 kubernetes,spark on kubernetes。 参考 https://spark.apache.org/docs/3.2.0/running-on-kuberne……