开源大数据平台

  • Hive的安装部署详解大数据

    1.环境准备 1.1软件版本 hive-0.14 下载地址 2.配置 安装hive的前提,必需安装好hadoop环境,可以参考我之前Hadoop社区版搭建,先搭建好hadoop环境…

    大数据 2022年1月11日
  • SQOOP安装部署详解大数据

    1.环境准备 1.1软件版本 sqoop-1.4.5 下载地址 2.配置 sqoop的配置比较简单,下面给出需要配置的文件 2.1环境变量 sudo vi /etc/profile…

    大数据 2022年1月11日
  • hadoop家族成员详解大数据

    1.概述   使用hadoop已经有一段时间了,从最开始懵懂到迷茫,再到各种阅读与写作,再到如今各种组合应用,逐渐已经离不开hadoop了,hadoop在大数据行业的成功,加速了它…

    大数据 2022年1月11日
  • hbase和zookeeper的安装和部署详解大数据

    1.概要 1.1HBase的使用场景  大数据量 (100s TB级数据) 且有快速随机访问的需求。  例如淘宝的交易历史记录。数据量巨大无容置疑,面向普通用户的请求必然要即时…

    大数据 2022年1月11日
  • 网站日志统计案例分析与实现详解大数据

    1.概要     到这一步,若是按照前面到文章一步走来,不出意外,我想hadoop平台环境应该搭建OK了。下面我以自己工作中实际的案例来梳理一下整个流程。同时参…

    大数据 2022年1月11日
  • 那些年使用Hive踩过的坑详解大数据

    1.概述   这个标题也是用血的教训换来的,希望对刚进入hive圈的童鞋和正在hive圈爬坑的童鞋有所帮助。打算分以下几个部分去描述: Hive的结构 Hive的基本操作 Hive…

    大数据 2022年1月11日
  • Hadoop不适合处理实时数据的原因剖析详解大数据

    1.概述    Hadoop已被公认为大数据分析领域无可争辩的王者,它专注与批处理。这种模型对许多情形(比如:为网页建立索引)已经足够,但还存在其他一些使用模型,它们需要来自高度动…

    大数据 2022年1月11日
  • 配置高可用的Hadoop平台详解大数据

    1.概述   在Hadoop2.x之后的版本,提出了解决单点问题的方案--HA(High Available 高可用)。这篇博客阐述如何搭建高可用的HDFS和YARN,执行步骤如下…

    大数据 2022年1月11日
  • 高可用Hadoop平台-启航详解大数据

    1.概述   在上篇博客中,我们搭建了《配置高可用Hadoop平台》,接下来我们就可以驾着Hadoop这艘巨轮在大数据的海洋中遨游了。工欲善其事,必先利其器。是的,没错;我们开发需…

    大数据 2022年1月11日
  • 解读Secondary NameNode的功能详解大数据

    1.概述   最近有朋友问我Secondary NameNode的作用,是不是NameNode的备份?是不是为了防止NameNode的单点问题?确实,刚接触Hadoop,从字面上看…

    大数据 2022年1月11日