数据采集
-
Spark学习笔记5:Spark集群架构详解大数据
Spark的一大好处就是可以通过增加机器数量并使用集群模式运行,来扩展计算能力。Spark可以在各种各样的集群管理器(Hadoop YARN , Apache Mesos , …
-
Spark学习笔记4:数据读取与保存详解大数据
Spark对很多种文件格式的读取和保存方式都很简单。Spark会根据文件扩展名选择对应的处理方式。 Spark支持的一些常见文件格式如下: 文本文件 使用文件路径作为参数调…
-
Spark学习笔记3:键值对操作详解大数据
键值对RDD通常用来进行聚合计算,Spark为包含键值对类型的RDD提供了一些专有的操作。这些RDD被称为pair RDD。pair RDD提供了并行操作各个键或跨节点重新进行数据…
-
Spark学习笔记2:RDD编程详解大数据
通过一个简单的单词计数的例子来开始介绍RDD编程。 import org.apache.spark.{SparkConf, SparkContext} object w…
-
HBase核心知识点总结详解大数据
一、HBase介绍 1、基本概念 HBase是一种Hadoop数据库,经常被描述为一种稀疏的,分布式的,持久化的,多维有序映射,它基于行键、列键和时间戳建立索引,是一个可以随机访问…
-
Spark学习笔记1:Spark概览详解大数据
Spark是一个用来实现快速而通用的集群计算的平台。 Spark项目包含多个紧密集成的组件。Spark的核心是一个对由很多计算任务组成的,运行在多个工作机器或者是一个计算集群上的应…
-
理解HDFS高可用性架构详解大数据
在Hadoop1.x版本的时候,Namenode存在着单点失效的问题。如果namenode失效了,那么所有的基于HDFS的客户端——包括MapReduce作业均无法读,写或列文件,…
-
Hadoop分布式集群搭建hadoop2.6+Ubuntu16.04详解大数据
前段时间搭建Hadoop分布式集群,踩了不少坑,网上很多资料都写得不够详细,对于新手来说搭建起来会遇到很多问题。以下是自己根据搭建Hadoop分布式集群的经验希望给新手一些帮助。当…
-
HDFS知识点总结详解大数据
学习完Hadoop权威指南有一段时间了,现在再回顾和总结一下HDFS的知识点。 1、HDFS的设计 HDFS是什么:HDFS即Hadoop分布式文件系统(Hadoop Distri…
-
分布式系统中zookeeper实现配置管理+集群管理详解大数据
引言 之前就了解过kafka,看的似懂非懂,最近项目组中引入了kafka,刚好接着这个机会再次学习下。 Kafka在很多公司被用作分布式高性能消息队列,kafka之前我只用过red…