区块链
-
Hadoop序列化详解大数据
数据在虚拟机内外交换的方式简称为序列化 *序列化(Serialization)是指把结构化对象转化为字节流。(写出去,以内存中得对象为基础…
-
MapReduce部分源码解读(一)详解大数据
1 /** 2 * Licensed to the Apache Software Foundation (ASF) under one 3 * or more contribut…
-
MapReduce的计数器详解大数据
第一部分.Hadoop计数器简述 hadoop计数器: 可以让开发人员以全局的视角来审查程序的运行情况以及各项指…
-
MapReduce的分区详解大数据
第一部分 分区简述(比如国家由省市来划分) 分区:map的输出经过partitioner分区进行下一步的reducer。一个分区对应一个reducer,…
-
MapReduce排序详解大数据
在map和reduce阶段进行排序时,比较的是k2。v2是不参与排序比较的。如果要想让v2也进行排序,需要把k2和v2组装成新的类,作为k2,才能参与比较。 例子: …
-
MapReduce分组详解大数据
分组:相同key的value进行分组 例子:如下输入输出,右边的第一列没有重复值,第二列取得是当第一列相同时第二例取最大值 &n…
-
MapReduce规约详解大数据
深入了解Combiners编程(相当于Map端的Reduce) 每一个map可能会产生大量的输出,combiner的作用就是在map端对输出先做一次合并,以减少传输到reducer…
-
MapReduce的洗牌(Shuffle)详解大数据
Shuffle过程:数据从map端传输到reduce端的过程~ Map端 每个map有一个环形内存缓冲区,用于存储任务的输出。默认大小100MB(io.sort.mb属性),一旦达…
-
Mapreduce其他部分详解大数据
1.hadoop的压缩codec Codec为压缩,解压缩的算法实现。 在Hadoop中,codec由CompressionCode的实现来表示。下面…
-
MapReduce实例(数据去重)详解大数据
数据去重: 原理(理解):Mapreduce程序首先应该确认<k3,v3>,根据<k3,v3>确定<k2,v…