数据中台
-
hadoop小文件合并详解大数据
1、背景 在实际项目中,输入数据往往是由许多小文件组成,这里的小文件是指小于HDFS系统Block大小的文件(默认128M), 然而每一个存储在HDFS中的文件、目录和块都映射…
-
hadoop自带的writable类型详解大数据
Hadoop 中,并没有使用Java自带的基本类型类(Integer、Float等),而是使用自己开发的类。Hadoop 自带有很多序列化类型,大致分为以下两种: 实现了Writa…
-
hadoop文件的序列化详解大数据
目录 1、为什么要序列化? 2、什么是序列化? …
-
利用Java API通过路径过滤上传多文件至HDFS详解大数据
在本地文件上传至HDFS过程中,很多情况下一个目录包含很多个文件,而我们需要对这些文件进行筛选,选出符合我们要求的文件,上传至HDFS。这时就需要我们用到文件模式。 在项目开始…
-
熟练掌握HDFS的Java API接口访问详解大数据
HDFS设计的主要目的是对海量数据进行存储,也就是说在其上能够存储很大量文件(可以存储TB级的文件)。HDFS将这些文件分割之后,存储在不同的DataN…
-
熟练掌握HDFS的Shell访问详解大数据
HDFS设计的主要目的是对海量数据进行存储,也就是说在其上能够存储很大量文件(可以存储TB级的文件)。HDFS将这些文件分割之后,存储在不同的DataNode上, H…
-
初步掌握HDFS的架构及原理详解大数据
目录 HDFS 是做什么的 HDFS 从何而来 为什么选择 HDFS 存储数据 HDFS 如何存储数据 HDFS 如何读取文件 HDFS 如何写入文件 HDFS 副本存放策略 Ha…
-
Hadoop 学习总结之一:HDFS简介详解大数据
一、HDFS的基本概念 1.1、数据块(block) HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。 和普通文件系…
-
从一般分布式设计看HDFS设计思想与架构详解大数据
要想深入学习HDFS就要先了解其设计思想和架构,这样才能继续深入使用HDFS或者深入研究源代码。懂得了“所以然”才能在实际使用中灵活运用、快速解决遇到的…
-
HDFS的客户端操作详解大数据
命令行操作: -help 功能:输…