数据采集
-
MapReduce分析明星微博数据详解大数据
互联网时代的到来,使得名人的形象变得更加鲜活,也拉近了明星和粉丝之间的距离。歌星、影星、体育明星、作家等名人通过互联网能够轻易实现和粉丝的互动,赚钱也变得前所未有的简…
-
MapReduce输出格式详解大数据
针对前面介绍的输入格式,MapReduce也有相应的输出格式。默认情况下只有一个 Reduce,输出只有一个文件,默认文件名为 part-r-…
-
使用DBOutputFormat把MapReduce产生的结果集导入到mysql中详解大数据
数据在HDFS和关系型数据库之间的迁移,主要有以下两种方式 1、按照数据库要求的文件格式生成文件,然后由数据库提供的导入工具进行导入 2、采用JDBC的…
-
hadoop处理Excel通话记录详解大数据
前面我们所写mr程序的输入都是文本文件,但真正工作中我们难免会碰到需要处理其它格式的情况,下面以处理excel数据为例 1、项目需求 有刘超与…
-
MapReduce输入格式详解大数据
文件是 MapReduce 任务数据的初始存储地。正常情况下,输入文件一般是存储在 HDFS 里面。这些文件的格式可以是任意的:我们可以使用基于行的日志文件, 也可以使用二进制…
-
Hadoop作业调度器详解大数据
随着 MapReduce 的流行,其开源实现 Hadoop 也变得越来越受推崇。在 Hadoop 系统中,有一个组件非常重要,那就是调度器。调度器是一个可插拔的模块,用户可以根…
-
MapReduce 运行机制详解大数据
Hadoop中的MapReduce是一个使用简单的软件框架,基于它写出来的应用程序能够运行在由上千个机器组成的大型集群上,并且以一种可靠容错并行处理TB级别的数据集。 一个…
-
初步掌握MapReduce的架构及原理详解大数据
目录 1、MapReduce定义 2、MapReduce来源 3、MapReduce特点 4、MapReduce实例 5、MapReduce编程模型 6、M…
-
hadoop小文件合并详解大数据
1、背景 在实际项目中,输入数据往往是由许多小文件组成,这里的小文件是指小于HDFS系统Block大小的文件(默认128M), 然而每一个存储在HDFS中的文件、目录和块都映射…
-
hadoop自带的writable类型详解大数据
Hadoop 中,并没有使用Java自带的基本类型类(Integer、Float等),而是使用自己开发的类。Hadoop 自带有很多序列化类型,大致分为以下两种: 实现了Writa…