数据分析 | 第98页

【故障背景】 8088网页打不开，因8088是yarn平台的端口，所以我从yarn开始排查，首先到各个机器上使用jps命令查看yarn的各个节点是否启动，发现虽然有nodemana…

大数据 2021年7月19日

0

【故障背景】 DataNode进程正常启动，但是网页上不显示，并且DataNode节点为空。 /etc/hosts 的ip和hostname配置正常，各个机…

大数据 2021年7月19日

0

一、概述 flume是一个高效的、可靠的、可用的分布式海量日志数据收集、聚合、传输的工具。 Flume is a distributed, reliable, and availa…

大数据 2021年7月19日

0

1. mapWith mapWith(i => i*10)((a,b) => b+2) (拿到分区号)(a是每次取到的RDD中的元素，b接收i*10的结果) 2. fl…

大数据 2021年7月19日

0

在客户端执行脚本sbin/spark-submit的时候，通过cat命令查看源码可以看出，实际上在源码中将会执行bin/spark-class org.apache.spark.d…

大数据 2021年7月19日

0

一、概述 SaprkContext非常重要，是Spark提交任务到集群的入口 SparkContext中没有main方法，在SparkContext主构造器中，主要做一下四件事情：…

大数据 2021年7月19日

0

一、概述 Spark源码整体的逻辑（spark1.3.1）：从saveAsTextFile（）方法入手 –>saveAsTextFile() &#8…

大数据 2021年7月19日

0

一、API 1. 出现新的上下文接口：SparkSession，统一了SQLContext和HiveContext，并且为SparkSession开发了…

大数据 2021年7月19日

0

一、技术背景 Spark1.x版本中执行SQL语句，使用的是一种最经典，最流行的查询求职策略，该策略主要基于 Volcano Iterator Mode…

大数据 2021年7月19日

0

1. RDD概述 1.1 什么是RDD (1) RDD（Resilient Distributed Dataset）弹性分布式数据…

大数据 2021年7月19日

0