spark

包含标签：spark 的文章

5G

大数据–spark–核心：sparkCore

一. 什么是RDD RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象。在代码中是一个抽象类，它代表一个弹性的、不可变……

admin 2023-01-24

0
人工智能

【大数据技术】Spark MLlib机器学习库、数据类型详解（图文解释）

机器学习的定义机器学习是一种通过利用数据，训练出模型，然后使用模型预测的一种方法。机器学习的构建过程是利用数据通过算法构建出模型并对模型进行评估，……

admin 2022-12-23

0
人工智能

推荐系统实战（概念与架构）

概念与架构推荐系统概念：推荐系统主要用于信息过载＆用户需求不明确，对用户进行项目推荐。推荐与Web项目的区别： Web项目：处理高并发实现高可用，提……

admin 2022-11-22

0
人工智能

PySpark数据分析基础：pyspark.mllib.regression机器学习回归核心类详解(一)+代码详解

目录前言一、Spark MLlib 二、回归类 1.LabeledPoint 2.LinearModel 3.LinearRegressionModel load方法 predict方法 save方法 4.LinearRegressionWithSGD ……

admin 2022-09-06

0
研发管理

大数据项目中数据倾斜

一、数据倾斜包含：hadoop数据倾斜，hive中数据倾斜、spark数据倾斜【hadoop中的数据倾斜表现】 1、有一个多几个 Reduce 卡住，卡在 99.99%，一直不能结束……

admin 2022-09-01

0
" alt="快手一面：讲一讲 Hadoop、Hive、Spark 之间的关系？">

5G

快手一面：讲一讲 Hadoop、Hive、Spark 之间的关系？

5G 时代，运营商网络不断提速，成本越来越低，流量越来越便宜。给互联网、物联网、互联网+ 各个行业的高速发展创造了非常好的有利条件，同时也产生了海量数……

admin 2022-08-13

0
5G

【面经】米哈游数据开发面经

声明：面经从网络上搜集，自己补充了答案，不保证准确。作者：蓝荆凌链接：https://www.nowcoder.com/discuss/285388?type=all&order=recall&pos=……

admin 2022-07-30

0
研发管理

Hive｜Spark 查看表的各种信息

Hive｜Spark 查看表的各种信息 SQL Syntax - Auxiliary Statements：SQL 语法之辅助语句 SHOW COLUMNS - 查看字段信息 SHOW CREATE TABLE - 查看建表语……

admin 2022-07-11

0
人工智能

2022年大数据即将带来的5个重要变化

目录 1. 大数据将成为一个外交政策问题 2. 大数据优化招聘和培训 3. 实时分析维持电子商务 4. 数据中毒愈演愈烈 5 绿色数据中心的兴起大数据在2022年达到新……

admin 2022-02-02

0
云计算

Spark列级血缘(字段级别血缘)开发与实现

介绍背景由于一直苦于尝试追踪spark的列级血缘，所以出于个人目的对spark源代码进行了修改，并且在github上独立了一个项目(Ushas)。传统数据治理中针……

admin 2022-01-13

0