数据分析
-
MapReduce(二)常用三大组件详解大数据
mapreduce三大组件:Combiner/Sort/Partitioner 默认组件:排序,分区(不设置,系统有默认值) 一、mapreduce中的Combiner…
-
MapReduce(一) mapreduce基础入门详解大数据
一、mapreduce入门 1、什么是mapreduce 首先让我们来重温一下 hadoop 的四大组件:HDFS:分布式存储…
-
Hadoop(十七)之MapReduce作业配置与Mapper和Reducer类详解大数据
前言 前面一篇博文写的是Combiner优化MapReduce执行,也就是使用Combiner在map端执行减少reduce端的计算量。 一、作业的默认配置 MapRedu…
-
Hadoop(十六)之使用Combiner优化MapReduce详解大数据
前言 前面的一篇给大家写了一些MapReduce的一些程序,像去重、词频统计、统计分数、共现次数等。这一篇给大家介绍的是关于Combiner优化操作。 一、Combiner概述…
-
Hadoop(十五)MapReduce程序实例详解大数据
一、统计好友对数(去重) 1.1、数据准备 joe, jon joe , kia joe, bob joe ,ali kia, joe kia ,jim kia, dee dee …
-
Hadoop(十四)MapReduce原理分析详解大数据
前言 上一篇我们分析了一个MapReduce在执行中的一些细节问题,这一篇分享的是MapReduce并行处理的基本过程和原理。 Mapreduce是一个分布式运算程序的编程…
-
Hadoop(十三)分析MapReduce程序详解大数据
前言 刚才发生了悲伤的一幕,本来这篇博客马上就要写好的,花了我一晚上的时间。但是刚才电脑没有插电源就没有了。很难受!想哭,但是没有办法继续站起来。 前面的一篇博文中介绍了什…
-
Hadoop(十二)MapReduce概述详解大数据
前言 前面以前把关于HDFS集群的所有知识给讲解完了,接下来给大家分享的是MapReduce这个Hadoop的并行计算框架。 一、背景 1)爆炸性增长的Web规模数据量 …
-
Hadoop(十一)Hadoop IO之序列化与比较功能实现详解大数据
前言 上一篇给大家介绍了Hadoop是怎么样保证数据的完整性的,并且使用Java程序来验证了会产生.crc的校验文件。这一篇给大家分享的是Hadoop的序列化! 一、序列化和反…
-
Hadoop(十)Hadoop IO之数据完整性详解大数据
前言 上一篇我分享了Hadoop的压缩和编解码器,在我们开发的过程中其实是经常会用到的,所以一定要去掌握。这一篇给大家介绍的是Hadoop的数据完整性! Hadoop用户在…