数据中台
-
Flume数据采集引擎Flume详解大数据
一、概述 flume是一个高效的、可靠的、可用的分布式海量日志数据收集、聚合、传输的工具。 Flume is a distributed, reliable, and availa…
-
Spark算子详解大数据
1. mapWith mapWith(i => i*10)((a,b) => b+2) (拿到分区号)(a是每次取到的RDD中的元素,b接收i*10的结果) 2. fl…
-
Spark源码分析之spark-submit详解大数据
在客户端执行脚本sbin/spark-submit的时候,通过cat命令查看源码可以看出,实际上在源码中将会执行bin/spark-class org.apache.spark.d…
-
Spark源码分析之SparkContext详解大数据
一、概述 SaprkContext非常重要,是Spark提交任务到集群的入口 SparkContext中没有main方法,在SparkContext主构造器中,主要做一下四件事情:…
-
Spark源码分析之RDD的生成及stage的切分详解大数据
一、概述 Spark源码整体的逻辑(spark1.3.1): 从saveAsTextFile()方法入手 –>saveAsTextFile() …
-
SparkSpark2.x版的新特性详解大数据
一、API 1. 出现新的上下文接口:SparkSession,统一了SQLContext和HiveContext,并且为SparkSession开发了…
-
SparkSpark性能优化之Whole-stage code generation详解大数据
一、技术背景 Spark1.x版本中执行SQL语句,使用的是一种最经典,最流行的查询求职策略,该策略主要基于 Volcano Iterator Mode…
-
SparkSpark核心之弹性分布式数据集RDD详解大数据
1. RDD概述 1.1 什么是RDD (1) RDD(Resilient Distributed Dataset)弹性分布式数据…
-
Spark编程实战之模拟SparkRPC原理实现自定义RPC详解大数据
1. 什么是RPC RPC(Remote Procedure Call)远程过程调用。在Hadoop和Sp…
-
详解Linux运维工程师高级篇(大数据安全方向).大数据
hadoop安全目录: kerberos(已发布) elasticsearch(已发布)http://blog.51cto.com/chenhao6/2113873 …