数据采集 | 第65页

一简介 1.1 Spark概述 Apache Spark是一个快速且通用的集群计算系统。它提供Java，Scala，Python和R中的高级API以及支持通用执行图的优化引擎。是U…

大数据 2021年7月19日

0

一简介 Elasticsearch是一个高度可扩展的开源全文搜索和分析引擎。它允许您快速，近实时地存储，搜索和分析大量数据。它通常用作支持具有复杂搜索功能和需求的应用程序的底层引…

大数据 2021年7月19日

0

一 Kafka概述 1.1 Kafka是什么在流式计算中，Kafka一般用来缓存数据，Storm通过消费Kafka的数据进行计算。 1）Apache Kafka是一个开源消息系统…

大数据 2021年7月19日

0

7.7 日志清洗案例 7.7.1 简单解析版 1）需求：去除日志中字段长度小于等于11的日志。 2）输入数据 194.237.142.21 – – [18/Sep/2013:06…

大数据 2021年7月19日

0

7.10 压缩/解压缩案例 7.10.1 对数据流的压缩和解压缩 CompressionCodec有两个方法可以用于轻松地压缩或解压缩数据。要想对正在被写入一个输出流的数据进行压缩…

大数据 2021年7月19日

0

7.9 找博客共同好友案例 1）需求：以下是博客的好友列表数据，冒号前是一个用户，冒号后是该用户的所有好友（数据中的好友关系是单向的） A:B,C,D,F,E,O B…

大数据 2021年7月19日

0

7.8 倒排索引（多job串联） 0）需求：有大量的文本（文档、网页），需要建立搜索索引 xyg pingping xyg ss xyg ss a.txt xyg pingping…

大数据 2021年7月19日

0

7.6 过滤日志及自定义日志输出路径（自定义OutputFormat） 1）需求过滤输入的log日志中是否包含xyg （1）包含xyg的网站输出到e:/xyg.log …

大数据 2021年7月19日

0

7.5 小文件处理（自定义InputFormat） 1）需求无论hdfs还是mapreduce，对于小文件都有损效率，实践中，又难免面临处理大量小文件的场景，此时，就需要有相应解…

大数据 2021年7月19日

0

大数据技术之MapReduce中多表合并案例 1）需求：订单数据表t_order： id pid amount 1001 01 1 1002 02 2 1003 03 3 &nb…

大数据 2021年7月19日

0