数据采集
-
HDFS入门详解大数据
HDFS入门 欢迎关注我的个人博客:http://www.cnblogs.com/yjd_hycf_space 更多大数据以及编程相关的精彩文章 为什么我们需要HDFS …
-
HDFS shell命令详解大数据
HDFS shell命令 FS Shell 调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。 所有的的…
-
Spark编程模型(RDD编程模型)详解大数据
Spark编程模型(RDD编程模型) 下图给出了rdd 编程模型,并将下例中用 到的四个算子映射到四种算子类型。spark 程序工作在两个空间中:spark rdd空…
-
Spark Streaming中的操作函数讲解详解大数据
Spark Streaming中的操作函数讲解 根据根据Spark官方文档中的描述,在Spark Streaming应用中,一个DStream对象可以调用多种操作,主…
-
Spark MLlib回归算法——线性回归、逻辑回归、SVM和ALS详解大数据
Spark MLlib回归算法——线性回归、逻辑回归、SVM和ALS 1、线性回归: (1)模型的建立: 回归正则化方法(Lasso,Ridg…
-
Spark算子—实战应用详解大数据
Spark算子实战应用 数据集 :http://grouplens.org/datasets/movielens/ MovieLens 1M Datase …
-
SparkSQL—实战应用详解大数据
SparkSQL—实战应用 数据集 :http://grouplens.org/datasets/movielens/ MovieLens 1M…
-
Spark内存管理机制详解大数据
Spark内存管理机制 Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spa…
-
Shuffle过程详解大数据
Shuffle过程 在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的…
-
Spark 介绍(基于内存计算的大数据并行计算框架)详解大数据
Spark 介绍(基于内存计算的大数据并行计算框架) Hadoop与Spark 行业广泛使用Hadoop来分析他们的数据集。原因是Hadoop框架基于一个…