数据采集

  • 那些年使用Hive踩过的坑详解大数据

    1.概述   这个标题也是用血的教训换来的,希望对刚进入hive圈的童鞋和正在hive圈爬坑的童鞋有所帮助。打算分以下几个部分去描述: Hive的结构 Hive的基本操作 Hive…

    大数据 2021年7月19日
  • Hadoop不适合处理实时数据的原因剖析详解大数据

    1.概述    Hadoop已被公认为大数据分析领域无可争辩的王者,它专注与批处理。这种模型对许多情形(比如:为网页建立索引)已经足够,但还存在其他一些使用模型,它们需要来自高度动…

    大数据 2021年7月19日
  • 配置高可用的Hadoop平台详解大数据

    1.概述   在Hadoop2.x之后的版本,提出了解决单点问题的方案--HA(High Available 高可用)。这篇博客阐述如何搭建高可用的HDFS和YARN,执行步骤如下…

    大数据 2021年7月19日
  • 高可用Hadoop平台-启航详解大数据

    1.概述   在上篇博客中,我们搭建了《配置高可用Hadoop平台》,接下来我们就可以驾着Hadoop这艘巨轮在大数据的海洋中遨游了。工欲善其事,必先利其器。是的,没错;我们开发需…

    大数据 2021年7月19日
  • 解读Secondary NameNode的功能详解大数据

    1.概述   最近有朋友问我Secondary NameNode的作用,是不是NameNode的备份?是不是为了防止NameNode的单点问题?确实,刚接触Hadoop,从字面上看…

    大数据 2021年7月19日
  • 高可用Hadoop平台-探索详解大数据

    1.概述   上篇《高可用Hadoop平台-启航》博客已经让我们初步了解了Hadoop平台;接下来,我们对Hadoop做进一步的探索,一步一步的揭开Hadoop的神秘面纱。下面,我…

    大数据 2021年7月19日
  • Hive基本操作详解大数据

    1.概述   上一章《那些年使用Hive踩过的坑》介绍了Hive的基本架构及原理,加下来介绍Hive的基本操作和一些注意事项。 2.基本操作 2.1Create Table 2.1…

    大数据 2021年7月19日
  • Hive性能优化详解大数据

    1.概述   继续《那些年使用Hive踩过的坑》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。 2…

    大数据 2021年7月19日
  • 高可用Hadoop平台-运行MapReduce程序详解大数据

    1.概述   最近有同学反应,如何在配置了HA的Hadoop平台运行MapReduce程序呢?对于刚步入Hadoop行业的同学,这个疑问却是会存在,其实仔细想想,如果你之前的语言功…

    大数据 2021年7月19日
  • 高可用Hadoop平台-集成Hive HAProxy详解大数据

    1.概述   这篇博客是接着《高可用Hadoop平台》系列讲,本篇博客是为后面用 Hive 来做数据统计做准备的,介绍如何在 Hadoop HA 平台下集成高可用的 Hive 工具…

    大数据 2021年7月19日