数据采集
-
Hive三Hive理论详解大数据
1. Hive基础 1. Hive基础 Hive基本概念 引入原因: Hive是什么 Hive数据管理 四种数据模型 Hive内部表和外部表 Hive数据类型 Hive的优化 Ma…
-
Hive四Hive基本查询详解大数据
Hive查询 Hive查询 基本查询 全表和特定字段查询 列别名 算术运算符 常用函数 Limit语句 Hive之where语句 介绍 比较运算符(Between/In/ Is N…
-
Hive五Hive函数UDF详解大数据
Hive函数 系统自带的函数 查看系统自带的函数 查看系统自带的函数 show functions; 显示自带的函数的用法 desc function upper; 详细显示自带的…
-
Hive六Hive调优小结详解大数据
Hive调优 Hive调优 Fetch抓取 本地模式 表的优化 小表、大表Join 大表Join大表 MapJoin Group By Count(Distinct) 去重统计 行…
-
hadoop docker集群搭建详解大数据
获取镜像 #本机内 docker pull ubuntu:16.04 编排镜像 启动一个容器 #本机内 docker run -i -t –name master ubuntu:…
-
hadoop 提交程序并监控运行详解大数据
程序编写及打包 使用maven导入第三方jar pom.xml <?xml version=”1.0″ encoding=”UTF-8″?> <project x…
-
Hadoop故障处理在高可用(HA)配置下,8088端口无法访问,resourcemanager进程无法启动问题详解大数据
【故障背景】 8088网页打不开,因8088是yarn平台的端口,所以我从yarn开始排查,首先到各个机器上使用jps命令查看yarn的各个节点是否启动,发现虽然有nodemana…
-
Hadoop故障处理全分布下,DataNode进程正常启动,但是网页上不显示,并且DataNode节点为空详解大数据
【故障背景】 DataNode进程正常启动,但是网页上不显示,并且DataNode节点为空。 /etc/hosts 的ip和hostname配置正常,各个机…
-
Flume数据采集引擎Flume详解大数据
一、概述 flume是一个高效的、可靠的、可用的分布式海量日志数据收集、聚合、传输的工具。 Flume is a distributed, reliable, and availa…
-
Spark算子详解大数据
1. mapWith mapWith(i => i*10)((a,b) => b+2) (拿到分区号)(a是每次取到的RDD中的元素,b接收i*10的结果) 2. fl…