搜索内容

包含标签:hive 的文章
  • Hive SQL初级练习(30题)
    研发管理

    Hive SQL初级练习(30题)

    前言 Hive 的重要性不必多说,离线批处理的王者,Hive 用来做数据分析,SQL 基础必须十分牢固。 环境准备 建表语句 这里建4张表,下面的练习题都用这些数据。……
    admin 2023-10-06
  • 大数据之Hive(三)
    物联网

    大数据之Hive(三)

    分区表 概念和常用操作 将一个大表的数据按照业务需要分散存储到多个目录,每个目录称为该表的一个分区。一般来说是按照日期来作为分区的标准。在查询时可……
    admin 2023-09-27
  • 【Hive SQL】统计同名路径下目录数量(基于reverse、split和substr函数)
    物联网

    【Hive SQL】统计同名路径下目录数量(基于reverse、split和substr函数)

    首先,Hive事务表所产生的的路径信息如下: PS:其中路径信息格式为 /user/hive/warehouse/${database_name}.db/${table_name}/* /user/hive/warehouse/test……
    admin 2023-09-18
  • 【hive】列转行—collect_set()/collect_list()/concat_ws()函数的使用场景
    研发管理

    【hive】列转行—collect_set()/collect_list()/concat_ws()函数的使用场景

    文章目录 一、collect_set()/collect_list() 二、实际运用 把同一分组的不同行的数据聚合成一个行 用下标可以随机取某一个 聚合后的中的值用‘|’分隔开 使……
    admin 2023-09-16
  • max min greatest least的详解以及用法
    物联网

    max min greatest least的详解以及用法

    1.区别: 1  max和min是聚合函数,如果使用一般需要同步跟一个group by 而greatest 和least则不需要。如果greaat 和least 后面直接group by则会报错. 2  min,……
    admin 2023-09-13
  • Hive on Spark (1)
    5G

    Hive on Spark (1)

    spark中executor和driver分别有什么作用? Spark中Executor 在 Apache Spark 中,Executor 是分布式计算框架中的一个关键组件,用于在集群中执行具体的计算……
    admin 2023-08-20
  • Hive概述
    物联网

    Hive概述

    Hive 一 Hive基本概念 1 Hive简介 学习目标 - 了解什么是Hive - 了解为什么使用Hive ####1.1 什么是 Hive Hive 由 Facebook 实现并开源,是基于 Hadoop……
    admin 2023-07-21
  • [sqoop]导入数据
    5G

    [sqoop]导入数据

    一、覆盖导入 例如维度表,每次导入的数据需要覆盖上次导入的数据。 hive-overwrite参数:实现覆盖导入 hive-import参数:表示向hive表导入 hive-table参数:……
    admin 2023-07-21
  • 19. 统计每日商品1和商品2销量的差值
    研发管理

    19. 统计每日商品1和商品2销量的差值

    文章目录 题目需求 实现一 题目来源 题目需求 从订单明细表(order_detail)中统计每天商品1和商品2销量(件数)的差值(商品1销量-商品2销……
    admin 2023-07-04
  • kettle之数据库连接-Generic database连接hive(CDH版)
    研发管理

    kettle之数据库连接-Generic database连接hive(CDH版)

    版本:kettle7.1、hive-common-1.1.0-cdh5.5.0 目录 1、创建连接 2、org/apache/thrift/TException 3、org.apache.hadoop.conf.Configuration 1、创建连接 ……
    admin 2023-07-01