数据采集
-
Spark-Core源码阅读详解大数据
吐血奉献,Spark-Core源码阅读,适合新手,详细请见链接: http://download.csdn.net/detail/wl044090432/9421721 目录结构为…
-
Spark1.4.0和hadoop联合部署的坑详解大数据
由于业务场景需求,需要通过spark从hdfs拉取数据进行40G的数据分析,按照官网搭建完spark的环境之后,就开始提交job运行了,大致的环境配置如下:4台服务器,每台服务器6…
-
利用Spark Rdd生成Hfile直接导入到Hbase详解大数据
针对大批量插入Hbase的场景,如果单条记录插入的时候效率比较低下,如果可以利用Rdd生成Hfile的话,然后利用Bulk Load导入Hfile的话,则会大大提升导入的速度,废话…
-
如何利用Spark提高批量插入Solr的效率详解大数据
有时候我们会碰到这样的场景:利用Spark批量插入数据。因为Spark相比MR编程更方便,更容易上手。因此接下来讲讲利用Spark批量插入数据时候的注意点。假设批量往SolrClo…
-
Driver端如何正确取消Spark中的job详解大数据
1. SparkContext提供了一个取消job的api class SparkContext(config…
-
Tuning-java-garbage-collection-for-spark-applications详解大数据
原文链接:https://databricks.com/blog/2015/05/28/tuning-java-garbage-collection-for-spark-appli…
-
Spark-Sql源码解析之一 引言详解大数据
1.1 Demo 以一个Spark-Sql的例子开始: public class TestSparkSql { public static void main(String[] a…
-
Spark-Sql源码解析之二 Sqlparser:sql –> unresolved logical plan详解大数据
前面章节讲解了Spark-SQL中的核心流程,接下来主要讲解如何将sql语句转化为UnResolved Logical Plan(包含UnresolvedRelation、 Unr…
-
Spark-Sql源码解析之三 Analyzer:Unresolved logical plan –> analyzed logical plan详解大数据
Analyzer主要职责就是将通过Sql Parser未能Resolved的Logical Plan给Resolved掉。 lazy val analyzed: LogicalPl…
-
Spark-Sql源码解析之四 Optimizer: analyzed logical plan –> optimized logical plan详解大数据
Optimizer的主要职责是将Analyzer给Resolved的Logical Plan根据不同的优化策略Batch,来对语法树进行优化,优化逻辑计划节点(Logical Pl…