包含标签:spark 的文章
-
【Spark】Spark对数据的读入和写出操作
Spark对数据的读入和写出操作 数据存储在文件中 CSV类型文件 JSON类型文件 Parquet操作 分区操作 数据存储在Hive表中 数据存储在MySQL中 数据存储在…… -
-
毕业设计 : 基于Spark的海量新闻文本聚类 – Spark 新闻分类 文本分类新闻聚类
文章目录 0 前言 1 项目介绍 2 实现流程 3 开发环境 4 java目录功能介绍 5 scala目录功能介绍 5.1 求TF-IDF 5.2 调用K-means模型 5.3 评价方式 6 聚类…… -
S抽取Mysql
sq1.0 用Scala抽取Mysql指定数据到Hive的ODS层的指定分区表中 object demo_extractjob { def main(args: Array[String]): Unit = { System.setProper…… -
聊聊访问者模式与其在Calcite/Flink中的应用
前言 “访问者模式”在之前的文章里已经出现过几次了,择日不如撞日,今天接着聊吧。 The Visitor Pattern 访问者模式属于GoF设计模式分类中的行为型模式。它…… -
大数据实训
Frist day 工具 架构 数仓架构 Linux-简单使用部署 工具 vmware15 Linux centos7.5 Hadhoop3.2.1 Hive3.1.2 SpringBoot Echart zk3.4.5 架构 编码…… -
大数据技术原理与应用——林子雨老师MOOC知识点一
文章目录 前言 一、大数据概述 前言 大数据导论期末考试内容以林子雨老师的《大数据技术原理与应用》为主,这里整理一下林子雨老师慕课上的习题的知识…… -
山东大学软件工程应用与实践——Spark(13)代码分析
[email protected] 1.执行物理执行计划: 经过分析、优化、逻辑计划转换为物理计划的懒执行,最终调用SparkPlan的execute方法执行物理计划。以execution.Projec…… -
Flink基于Java的WordCount,根据滑动窗口动态排序实现
背景 刚学习Flink没多久,之前用Spark做WordCount实现排序很简单,因为Spark做的WC是简单的批处理,直接排序就完事了,但是Flink的流处理需要考虑到状态(Sta…… -
RDD编程基础
一、创建RDD 两种方式: 1.从文件系统中加载数据创建RDD Spark采用textFile()方法来从文件系统中加载数据创建RDD,该方法把文件的URI作为参数,这个URI可以是……