数据采集
-
MapReduce规约详解大数据
深入了解Combiners编程(相当于Map端的Reduce) 每一个map可能会产生大量的输出,combiner的作用就是在map端对输出先做一次合并,以减少传输到reducer…
-
MapReduce的洗牌(Shuffle)详解大数据
Shuffle过程:数据从map端传输到reduce端的过程~ Map端 每个map有一个环形内存缓冲区,用于存储任务的输出。默认大小100MB(io.sort.mb属性),一旦达…
-
Mapreduce其他部分详解大数据
1.hadoop的压缩codec Codec为压缩,解压缩的算法实现。 在Hadoop中,codec由CompressionCode的实现来表示。下面…
-
MapReduce实例(数据去重)详解大数据
数据去重: 原理(理解):Mapreduce程序首先应该确认<k3,v3>,根据<k3,v3>确定<k2,v…
-
MapRedece(单表关联)详解大数据
源数据:Child–Parent表 Tom Lucy Tom Jack Jone Lucy Jone Jack Lucy Marry Lucy Ben Jack Ali…
-
MapRedece(多表关联)详解大数据
多表关联: 准备数据 ******************************************** 工厂表: Factory Addressed BeijingRed…
-
SequenceFile实例操作详解大数据
HDFS API提供了一种二进制文件支持,直接将<key,value>对序列化到文件中,该文件格式是不能直接查看的,可以通过ha…
-
HDFS体系结构(NameNode、DataNode详解)大数据
hadoop项目地址:http://hadoop.apache.org/ NameNode、DataNode详解 (一)分布式文件系统概述 数…
-
Hadoop简介详解大数据
一.hadoop介绍 HADOOP是apache旗下的一套开源软件平台 HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 H…
-
Hadoop集群搭建详解大数据
一.准备Linux环境(虚拟机) 1.先将虚拟机的网络模式选为NAT 2.修改主机名 vi /etc/sysconfig/network NE…