数据分析
-
大数据技术之倒排索引(多job串联)详解大数据
7.8 倒排索引(多job串联) 0)需求:有大量的文本(文档、网页),需要建立搜索索引 xyg pingping xyg ss xyg ss a.txt xyg pingping…
-
大数据技术之过滤日志及自定义日志输出路径(自定义OutputFormat)详解大数据
7.6 过滤日志及自定义日志输出路径(自定义OutputFormat) 1)需求 过滤输入的log日志中是否包含xyg (1)包含xyg的网站输出到e:/xyg.log …
-
大数据技术之小文件处理(自定义InputFormat)详解大数据
7.5 小文件处理(自定义InputFormat) 1)需求 无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解…
-
大数据技术之MapReduce中多表合并案例详解大数据
大数据技术之MapReduce中多表合并案例 1)需求: 订单数据表t_order: id pid amount 1001 01 1 1002 02 2 1003 03 3 &nb…
-
大数据技术之辅助排序和二次排序案例(GroupingComparator)详解大数据
大数据技术之辅助排序和二次排序案例(GroupingComparator) 1)需求 有如下订单数据 订单id 商品id 成交金额 0000001 Pdt_01 222.8 000…
-
大数据技术之WordCount案例详解大数据
7.1 WordCount案例 7.1.1 需求1:统计一堆文件中单词出现的个数(WordCount案例) 0)需求:在一堆给定的文本文件中统计输出每一个单词出现的总次数…
-
大数据技术之流量汇总案例详解大数据
7.2 流量汇总程序案例 7.2.1 需求1:统计手机号耗费的总上行流量、下行流量、总流量(序列化) 1)需求: 统计每一个手机号耗费的总上行流量、下行流量、总…
-
大数据Hadoop之MapReduce详解大数据
一 MapReduce入门 1.1 MapReduce定义 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapred…
-
Java8新特性详解大数据
Java 8新特性简介 速度更快 代码更少(增加了新的语法 Lambda 表达式) 强大的 Stream API 便于并行 最大化减少空指针异常 Optiona…
-
CentOS7.5之MongoDB4.0安装与CRUD基本操作详解大数据
一 MongoDB简介 MongoDB 是一个基于分布式文件存储的数据库。由 C++ 语言编写。旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。 MongoDB 是一个介于…