数据中台
-
Hadoop(十七)之MapReduce作业配置与Mapper和Reducer类详解大数据
前言 前面一篇博文写的是Combiner优化MapReduce执行,也就是使用Combiner在map端执行减少reduce端的计算量。 一、作业的默认配置 MapRedu…
-
Hadoop(十六)之使用Combiner优化MapReduce详解大数据
前言 前面的一篇给大家写了一些MapReduce的一些程序,像去重、词频统计、统计分数、共现次数等。这一篇给大家介绍的是关于Combiner优化操作。 一、Combiner概述…
-
Hadoop(十五)MapReduce程序实例详解大数据
一、统计好友对数(去重) 1.1、数据准备 joe, jon joe , kia joe, bob joe ,ali kia, joe kia ,jim kia, dee dee …
-
Hadoop(十四)MapReduce原理分析详解大数据
前言 上一篇我们分析了一个MapReduce在执行中的一些细节问题,这一篇分享的是MapReduce并行处理的基本过程和原理。 Mapreduce是一个分布式运算程序的编程…
-
Hadoop(十三)分析MapReduce程序详解大数据
前言 刚才发生了悲伤的一幕,本来这篇博客马上就要写好的,花了我一晚上的时间。但是刚才电脑没有插电源就没有了。很难受!想哭,但是没有办法继续站起来。 前面的一篇博文中介绍了什…
-
Hadoop(十二)MapReduce概述详解大数据
前言 前面以前把关于HDFS集群的所有知识给讲解完了,接下来给大家分享的是MapReduce这个Hadoop的并行计算框架。 一、背景 1)爆炸性增长的Web规模数据量 …
-
Hadoop(十一)Hadoop IO之序列化与比较功能实现详解大数据
前言 上一篇给大家介绍了Hadoop是怎么样保证数据的完整性的,并且使用Java程序来验证了会产生.crc的校验文件。这一篇给大家分享的是Hadoop的序列化! 一、序列化和反…
-
Hadoop(十)Hadoop IO之数据完整性详解大数据
前言 上一篇我分享了Hadoop的压缩和编解码器,在我们开发的过程中其实是经常会用到的,所以一定要去掌握。这一篇给大家介绍的是Hadoop的数据完整性! Hadoop用户在…
-
Hadoop(九)Hadoop IO之Compression和Codecs详解大数据
前言 前面一篇介绍了Java怎么去查看数据块的相关信息和怎么去查看文件系统。我们只要知道怎么去查看就行了!接下来我分享的是Hadoop的I/O操作。 在Hadoop中为什么…
-
Hadoop(八)Java程序访问HDFS集群中数据块与查看文件系统详解大数据
前言 我们知道HDFS集群中,所有的文件都是存放在DN的数据块中的。那我们该怎么去查看数据块的相关属性的呢?这就是我今天分享的内容了 一、HDFS中数据块概述 1.1、HDFS…