数据治理
-
了解Hadoop体系的强大工具组合详解大数据
HDFS和MapReduce只是打造Hadoop平台最基本的核心套件,在Apache基金会的网站中还有其他的相关开源套件,共同组成了一个Hadoop体系(Hadoop Ecosys…
-
Splunk 和 Cloudera 的核心竞争力在哪里详解大数据
Splunk面向的是细分市场,分析Machine Log,并在上面集成了完整的专用模块。所有用例都是相对专门的领域,因此可以对这些进行专门优化。它的核心竞争力应该是领域知识和抽象,…
-
关于大数据人人都需要知道的10个问题详解大数据
1、云计算与大数据是什么关系? 云计算的关键词在于“整合”,无论你是通过现在已经很成熟的传统的虚拟机切分型技术,还是通过google后来所使用的海量节点聚合型技术,他都是通过将海量…
-
浅谈分布式文件系统发展详解大数据
目前的工业趋势表明,作为企业存储领域的一部分,分布式文件系统将会成为日益重要的技术并得到迅猛发展。 分布式文件系统体系结构将超越目前在NAS系统中广泛应…
-
Hadoop分布式文件系统:架构和设计要点详解大数据
一、前提和设计目标 1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目…
-
Hadoop:HDFS权限管理用户指南详解大数据
对文件而言,当读取这个文件时需要有r权限,当写入或者追加到文件时需要有w权限。对目录而言,当列出目录内容时需要具有r权限,当新建或删除子文件或子目录时需要有w权限,当访问目录的子节…
-
hadoop的HDFS新用户指南详解大数据
HDFS是Hadoop应用的主要分布式存储。一个HDFS集群由一个管理文件系统元数据的NameNode,和存储实际数据的一些Datanode组成。HDFS的架构在这里有详细描述。这…
-
为何HDFS是大数据分析的软肋详解大数据
什么是分布式文件系统?普通的文件系统是基于块来存储文件的。查找文件时,要去磁盘中匹配每一个块。一般是有文件分配表或多种FAT的。但是,分布式文件系统的物理存储资源是不一定直接连接在…
-
一些Hadoop不为人知的东西详解大数据
Append-only文件访问方式 HDFS 的 Append-only 文件访问方式是一个巨大的障碍,导致下游项目不得不解决这个问题。例如,HBase 就实现了“墓碑化(Tomb…
-
8个值得关注的SQL-on-Hadoop框架详解大数据
Apache Hive Hive是原始的SQL-on-Hadoop解决方案。它是一个开源的Java项目,能够将SQL转换成一系列可以在标准的Hadoop TaskTrackers上…