数据分析

  • Hbase For Java详解大数据

    package cn.hwadee.wuyang.hbase.utils; import java.io.IOException; import java.util.Iterato…

    大数据 2021年7月19日
  • HDFS For core-site.xml详解大数据

    1.重要部分 1. fs.default.name hdfs://master:9000 定义master的URI和端口 2. hadoop.tmp.dir /usr/hadoop…

    大数据 2021年7月19日
  • HDFS For hdfs-site.xml详解大数据

    一、重要部分 1. dfs.name.dir /usr/hadoop/hdfs/name 存贮在本地的名字节点数据镜象的目录,作为名字节点的冗余备份 2. dfs.data.dir…

    大数据 2021年7月19日
  • HDFS原理总结详解大数据

    1. HDFS优缺点 1.1 优点 1.1.1高容错性 可以由数百或数千个服务器机器组成,每个服务器机器存储文件系统数据的一部分; 数据自动保存多个副本; 副本丢失后检测故障快速,…

    大数据 2021年7月19日
  • YARN原理总结详解大数据

    问题导读1.hadoop1.x中mapreduce框架与yarn有什么共同点?2.它们有什么不同点?3.yarn中有哪些改变?4.yarn中有哪些术语? yarn是比较难懂的一个地…

    大数据 2021年7月19日
  • Spark原理总结详解大数据

    一、Spark 是什么    Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用分布式并行计算框架。Spark拥有hado…

    大数据 2021年7月19日
  • Map-Reduce和Spark详解大数据

    Overview 回顾python中的函数式编程 python中的map和reduce函数 用map写并行代码 Map-Reduce编程模型 用python写spark程序 Rea…

    大数据 2021年7月19日
  • hive介绍详解大数据

      hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce、Tez任…

    大数据 2021年7月19日
  • Hive Compiler过程详解大数据

      通过Parser将HiveQL转换成AST,通过Semantic Analyzer将AST转换为QB,通过Logical Plan Generator将QB转换成Operato…

    大数据 2021年7月19日
  • hive优化总结详解大数据

    一、表设计     合理分表     合理设计表分区,静态分区、动态分区 二、扫描相关     1、谓词下推(Predi…

    大数据 2021年7月19日