数据中台
-
大数据技术之小文件处理(自定义InputFormat)详解大数据
7.5 小文件处理(自定义InputFormat) 1)需求 无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解…
-
大数据技术之MapReduce中多表合并案例详解大数据
大数据技术之MapReduce中多表合并案例 1)需求: 订单数据表t_order: id pid amount 1001 01 1 1002 02 2 1003 03 3 &nb…
-
大数据技术之辅助排序和二次排序案例(GroupingComparator)详解大数据
大数据技术之辅助排序和二次排序案例(GroupingComparator) 1)需求 有如下订单数据 订单id 商品id 成交金额 0000001 Pdt_01 222.8 000…
-
大数据技术之WordCount案例详解大数据
7.1 WordCount案例 7.1.1 需求1:统计一堆文件中单词出现的个数(WordCount案例) 0)需求:在一堆给定的文本文件中统计输出每一个单词出现的总次数…
-
大数据技术之流量汇总案例详解大数据
7.2 流量汇总程序案例 7.2.1 需求1:统计手机号耗费的总上行流量、下行流量、总流量(序列化) 1)需求: 统计每一个手机号耗费的总上行流量、下行流量、总…
-
大数据Hadoop之MapReduce详解大数据
一 MapReduce入门 1.1 MapReduce定义 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapred…
-
Java8新特性详解大数据
Java 8新特性简介 速度更快 代码更少(增加了新的语法 Lambda 表达式) 强大的 Stream API 便于并行 最大化减少空指针异常 Optiona…
-
CentOS7.5之MongoDB4.0安装与CRUD基本操作详解大数据
一 MongoDB简介 MongoDB 是一个基于分布式文件存储的数据库。由 C++ 语言编写。旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。 MongoDB 是一个介于…
-
TensorFlow学习笔记(七)Tonser Board详解大数据
为了更好的管理、调试和优化神经网络的训练过程,TensorFlow提供了一个可视化工具TensorBoard。TensorBoard可以有效的展示TensorFlow在运行过程…
-
win下idea远程提交WordCount任务到HA集群详解大数据
一,环境配置 1,修改win下的host文件:即C:/Windows/System32/drivers/etc/host中添加集群中机子的ip 2,win下hadoop,并为win…