数据中台
-
Hadoop2.7.6_03_HDFS原理详解大数据
1. HDFS前言 l 设计思想 分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析; &nbs…
-
Hadoop2.7.6_04_HDFS的Shell操作与常见问题详解大数据
1. HDFS的shell操作 1.1. 支持的命令及参数 1 [[email protected] zhangliang]$ hadoop fs 2 Us…
-
Hadoop2.7.6_05_mapreduce-Yarn详解大数据
1. MAPREDUCE原理 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapreduce核…
-
Hadoop2.7.6_06_mapreduce参数优化详解大数据
MapReduce重要配置参数 1. 资源相关参数 1 //以下参数是在用户自己的mr应用程序中配置就可以生效 2 (1) mapreduce.map.memor…
-
Mapreduce 原理及程序分析详解大数据
1.MapReduce(Map+Reduce) 提出一个问题: 目标:你想数出一摞牌中有多少张黑桃。 直观方式:一张一张检查并且数出有多少张是黑桃数目 M…
-
Mapreduce实验一:WordCountTest详解大数据
1.确定Hadoop处于启动状态 [[email protected] ~]# jps 23763 Jps3220 SecondaryNameNode3374 Resou…
-
Hadoop序列化详解大数据
数据在虚拟机内外交换的方式简称为序列化 *序列化(Serialization)是指把结构化对象转化为字节流。(写出去,以内存中得对象为基础…
-
MapReduce部分源码解读(一)详解大数据
1 /** 2 * Licensed to the Apache Software Foundation (ASF) under one 3 * or more contribut…
-
MapReduce的计数器详解大数据
第一部分.Hadoop计数器简述 hadoop计数器: 可以让开发人员以全局的视角来审查程序的运行情况以及各项指…
-
MapReduce的分区详解大数据
第一部分 分区简述(比如国家由省市来划分) 分区:map的输出经过partitioner分区进行下一步的reducer。一个分区对应一个reducer,…