数据采集
-
YARN原理总结详解大数据
问题导读1.hadoop1.x中mapreduce框架与yarn有什么共同点?2.它们有什么不同点?3.yarn中有哪些改变?4.yarn中有哪些术语? yarn是比较难懂的一个地…
-
Spark原理总结详解大数据
一、Spark 是什么 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用分布式并行计算框架。Spark拥有hado…
-
Map-Reduce和Spark详解大数据
Overview 回顾python中的函数式编程 python中的map和reduce函数 用map写并行代码 Map-Reduce编程模型 用python写spark程序 Rea…
-
hive介绍详解大数据
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce、Tez任…
-
Hive Compiler过程详解大数据
通过Parser将HiveQL转换成AST,通过Semantic Analyzer将AST转换为QB,通过Logical Plan Generator将QB转换成Operato…
-
hive优化总结详解大数据
一、表设计 合理分表 合理设计表分区,静态分区、动态分区 二、扫描相关 1、谓词下推(Predi…
-
redis基础学习一详解大数据
学习redis之前首先了解下什么是nosql 什么是NoSql? 为了解决高并发、高可用、高可扩展,大数据存储等一系列问题而产生的数据库解决方案,就是NoSql NoSql,叫非关…
-
redis基础学习二详解大数据
redis数据类型: 1.String类型 设置值:set key value 127.0.0.1:6379> set test 123 OK 取值:get value 12…
-
redis基础学习三详解大数据
redis持久化方案 redis持久化分为两种:rdb方式,aof方式,默认为rdb方式 1.Rdb方式:redis通过快照将数据持久化到磁盘中 设置持久化快照条件:在redis.…
-
hadoop datanode节点超时时间设置详解大数据
datanode进程死亡或者网络故障造成datanode无法与namenode通信,namenode不会立即把该节点判定为死亡,要经过一段时间,这段时间暂称作超时时长。 HDFS默…