数据采集
-
Hadoop2.7.6_05_mapreduce-Yarn详解大数据
1. MAPREDUCE原理 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapreduce核…
-
Hadoop2.7.6_06_mapreduce参数优化详解大数据
MapReduce重要配置参数 1. 资源相关参数 1 //以下参数是在用户自己的mr应用程序中配置就可以生效 2 (1) mapreduce.map.memor…
-
Mapreduce 原理及程序分析详解大数据
1.MapReduce(Map+Reduce) 提出一个问题: 目标:你想数出一摞牌中有多少张黑桃。 直观方式:一张一张检查并且数出有多少张是黑桃数目 M…
-
Mapreduce实验一:WordCountTest详解大数据
1.确定Hadoop处于启动状态 [[email protected] ~]# jps 23763 Jps3220 SecondaryNameNode3374 Resou…
-
Hadoop序列化详解大数据
数据在虚拟机内外交换的方式简称为序列化 *序列化(Serialization)是指把结构化对象转化为字节流。(写出去,以内存中得对象为基础…
-
MapReduce部分源码解读(一)详解大数据
1 /** 2 * Licensed to the Apache Software Foundation (ASF) under one 3 * or more contribut…
-
MapReduce的计数器详解大数据
第一部分.Hadoop计数器简述 hadoop计数器: 可以让开发人员以全局的视角来审查程序的运行情况以及各项指…
-
MapReduce的分区详解大数据
第一部分 分区简述(比如国家由省市来划分) 分区:map的输出经过partitioner分区进行下一步的reducer。一个分区对应一个reducer,…
-
MapReduce排序详解大数据
在map和reduce阶段进行排序时,比较的是k2。v2是不参与排序比较的。如果要想让v2也进行排序,需要把k2和v2组装成新的类,作为k2,才能参与比较。 例子: …
-
MapReduce分组详解大数据
分组:相同key的value进行分组 例子:如下输入输出,右边的第一列没有重复值,第二列取得是当第一列相同时第二例取最大值 &n…