数据采集
-
Hive学习之路 (六)Hive SQL之数据类型和存储格式详解大数据
一、数据类型 1、基本数据类型 Hive 支持关系型数据中大多数基本数据类型 类型 描述 示例 boolean true/false TRUE tinyint 1字节的有符号整数 …
-
Hive学习之路 (七)Hive的DDL操作详解大数据
库操作 1、创建库 语法结构 CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_…
-
Hive学习之路 (八)Hive中文乱码详解大数据
Hive注释中文乱码 创建表的时候,comment说明字段包含中文,表成功创建成功之后,中文说明显示乱码 create external table movie( userID i…
-
Hive学习之路 (九)Hive的内置函数详解大数据
数学函数 Return Type Name (Signature) Description DOUBLE round(DOUBLE a) Returns the rounded&n…
-
Hive学习之路 (十)Hive的高级操作详解大数据
一、负责数据类型 1、array 现有数据如下: 1 huangbo guangzhou,xianggang,shenzhen a1:30,a2:20,a3:100 b…
-
Hive学习之路 (十一)Hive的5个面试题详解大数据
一、求单月访问次数和总访问次数 1、数据说明 数据字段说明 用户名,月份,访问次数 数据格式 A,2015-01,5 A,2015-01,15 B,2015-01,5 A,2015…
-
Hive学习之路 (十二)Hive SQL练习之影评案例详解大数据
案例说明 现有如此三份数据:1、users.dat 数据格式为: 2::M::56::16::70072, 共有6040条数据对应字段为:UserID BigInt, Gender…
-
Hive学习之路 (十三)Hive分析窗口函数(一) SUM,AVG,MIN,MAX详解大数据
数据准备 数据格式 cookie1,2015-04-10,1 cookie1,2015-04-11,5 cookie1,2015-04-12,7 cookie1,2015-04-1…
-
Hive学习之路 (十四)Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK详解大数据
概述 本文中介绍前几个序列函数,NTILE,ROW_NUMBER,RANK,DENSE_RANK,下面会一一解释各自的用途。 注意: 序列函数不支持WINDOW子句。(ROWS B…
-
Hive学习之路 (十五)Hive分析窗口函数(三) CUME_DIST和PERCENT_RANK详解大数据
这两个序列分析函数不是很常用,这里也练习一下。 数据准备 数据格式 cookie3.txt d1,user1,1000 d1,user2,2000 d1,user3,3…