搜索内容

包含标签:spark 的文章
  • Flink基于Java的WordCount,根据滑动窗口动态排序实现
    云计算

    Flink基于Java的WordCount,根据滑动窗口动态排序实现

    背景 刚学习Flink没多久,之前用Spark做WordCount实现排序很简单,因为Spark做的WC是简单的批处理,直接排序就完事了,但是Flink的流处理需要考虑到状态(Sta……
    admin 2021-12-18
  • RDD编程基础
    云计算

    RDD编程基础

    一、创建RDD 两种方式: 1.从文件系统中加载数据创建RDD Spark采用textFile()方法来从文件系统中加载数据创建RDD,该方法把文件的URI作为参数,这个URI可以是……
    admin 2021-12-17
  • Spark3 AQE之自动合并Shuffle partition源码解读
    云计算

    Spark3 AQE之自动合并Shuffle partition源码解读

    Branch:spark-3.0 有不对的地方欢迎各位大佬批评指正! 相关参数: spark.sql.adaptive.enabled AQE是否开启 spark.sql.adaptive.coalescePartitions.enable……
    admin 2021-12-17
  • 大数据之Spark
    云计算

    大数据之Spark

    Spark介绍 什么是Spark 专为大规模数据处理而设计的快速通用的计算引擎 类 Hadoop MapReduce 的通用并行计算框架 拥有 Hadoop MapReduce 所具有的优点 ……
    admin 2021-12-12
  • Spark 术语与宽窄依赖
    云计算

    Spark 术语与宽窄依赖

    术语解释 窄依赖和宽依赖 RDD 之间有一系列的依赖关系,依赖关系又分为窄依赖和宽依赖。 1 .窄依赖:父 RDD 和子 RDD partition 之间的关系是一对一的。或……
    admin 2021-12-09
  • Hive表两列时间与当前时间的比较
    云计算

    Hive表两列时间与当前时间的比较

    在hive实际生成需求中,我们常常会碰到这样的问题,找出会员未到期的用户,那么,我们可以通过分别对用户会员开通时间、结束时间跟当前时间做比较,用户会员……
    admin 2021-12-09
  • 【大数据计算】(四) Spark的安装和基础编程
    云计算

    【大数据计算】(四) Spark的安装和基础编程

    文章目录 1. 使用Spark Sell编写代码 1.1启动Spark Shell 1.2 读取文件 1.3 编写词频统计程序 2. 编写Spark独立应用程序 2.1 用Scala语言编写Spark独……
    admin 2021-12-08
  • sparkstreaming+flume+kafka实时流式处理完整流程
    数据库

    sparkstreaming+flume+kafka实时流式处理完整流程

    目录 sparkstreaming+flume+kafka实时流式处理完整流程 一、前期准备 二、实现步骤 1.引入依赖 2.日志收集服务器 3.日志接收服务器 4、spark集群处理……
    admin 2021-12-06
  • structured streaming 入门级初使用(一)
    云计算

    structured streaming 入门级初使用(一)

    1、准备 导入依赖 <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</ar……
    admin 2021-12-04
  • 交通数据分析系统:安装部署
    云计算

    交通数据分析系统:安装部署

    文章目录 交通数据分析系统:安装部署 1、实验描述 2、实验环境 3、相关技能 4、知识点 5、效果图 6、实验步骤 7、总结 交通数据分析系统:安装部署……
    admin 2021-12-04