系统优化
-
HDFS的namenode和datanode详解程序员
一、概述 HDFS集群以Master-Slave模式运行,主要有两类节点:一个Namenode(即Master)和多个Datanode(即Slave)。 HDFS Architec…
-
hdfs的FileSystem API详解程序员
FileSystem类是与hadoop的文件系统交互的重要接口。虽然我们只是着重于HDFS的实现,但我们在编码时一般也要注意代码在FileSystem不同子类文件系统之间的可移植性…
-
hadoop I/O中的压缩详解程序员
Hadoop I/O中的压缩 文件压缩有两大好处: 1.可以减少存储文件所需要的磁盘空间 2.可以加速数据在网络和磁盘上的传输 5种压缩格式的特征的比较 *DEFLATE是一个标准…
-
对数据的认识(一)详解程序员
一、数据对象与属性类型 1、属性: 一个数据字段,表示数据对象的一个特征。(属性(数据挖掘和数据库人员使用)、维(数据仓库)、特征(机器学习)、变量可以互换实用(统计学家使用)) …
-
对数据的认识(二)详解程序员
四、度量数据的相似性和相异性 1、数据矩阵和相异性矩阵 假设我们有n个对象(如人、商品或课程),被p个属性(又称维或特征,如年龄、身高、体重或性别)刻画。这些对象是x1=(x11,…
-
感知机详解程序员
感知机(perceptron)是二分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别。取+1和-1二值,感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面…
-
KNN算法详解程序员
k近邻法(k-Nearest eighbor,K-NN)是一种基本分类和回归方法。K近邻法的输入为实例的特征向量,对应的特征空间的点:输出为实例的类别,可以取多类。 …
-
朴素贝叶斯算法详解程序员
朴素贝叶斯法的学习与分类 基本方法 设输入空间为n维向量的集合,输出空间为类标记集合={c1……ck}。输入特征向量x和输出类标记y分属于这两个集合。X是输入空间上的随机变量,Y是…
-
spark RDD详解程序员
RDD(Resilient Distributed Dataset)是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分…
-
Remove Duplicates from Sorted Array详解程序员
问题描述: Given a sorted array, remove the duplicates in place such that each element appear o…