数据中台
-
Spark官方调优文档翻译详解大数据
Spark调优 由于大部分Spark计算都是在内存中完成的,所以Spark程序的瓶颈可能由集群中任意一种资源导致,如:CPU、网络带宽、或者内存等。最常见的情况是,数据能装进内存,…
-
Spark内存管理详解大数据
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能…
-
CentOS7.5之spark2.3.1安装详解大数据
一简介 1.1 Spark概述 Apache Spark是一个快速且通用的集群计算系统。它提供Java,Scala,Python和R中的高级API以及支持通用执行图的优化引擎。是U…
-
ELK6.2.4集群安装使用详解大数据
一 简介 Elasticsearch是一个高度可扩展的开源全文搜索和分析引擎。它允许您快速,近实时地存储,搜索和分析大量数据。它通常用作支持具有复杂搜索功能和需求的应用程序的底层引…
-
消息订阅之Kafka详解大数据
一 Kafka概述 1.1 Kafka是什么 在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。 1)Apache Kafka是一个开源消息系统…
-
大数据技术之日志清洗案例详解大数据
7.7 日志清洗案例 7.7.1 简单解析版 1)需求: 去除日志中字段长度小于等于11的日志。 2)输入数据 194.237.142.21 – – [18/Sep/2013:06…
-
大数据技术之压缩解压缩案例详解大数据
7.10 压缩/解压缩案例 7.10.1 对数据流的压缩和解压缩 CompressionCodec有两个方法可以用于轻松地压缩或解压缩数据。要想对正在被写入一个输出流的数据进行压缩…
-
大数据技术之找博客共同好友案例详解大数据
7.9 找博客共同好友案例 1)需求: 以下是博客的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的) A:B,C,D,F,E,O B…
-
大数据技术之倒排索引(多job串联)详解大数据
7.8 倒排索引(多job串联) 0)需求:有大量的文本(文档、网页),需要建立搜索索引 xyg pingping xyg ss xyg ss a.txt xyg pingping…
-
大数据技术之过滤日志及自定义日志输出路径(自定义OutputFormat)详解大数据
7.6 过滤日志及自定义日志输出路径(自定义OutputFormat) 1)需求 过滤输入的log日志中是否包含xyg (1)包含xyg的网站输出到e:/xyg.log …