开源

  • 八、HDFS的一致性flush

    一、背景 hdfs在写入的过程中,只有完全写入整个文件的内容之后,对其他client才会可见,否则在写入的过程中是不可见。如果想要立即可见,就需要一致性flush 的操作。 二、一致性flush 代码例子: @Test public voi…

    大数据 2021年11月14日
  • Hive和Impala加载和存储数据功能曝光

    Hive与Impala都是构建在Hadoop之上的数据查询工具,那么在实际的应用中,它们是如何加载和存储数据的呢? Hive和Impala存储和加载表,和所有的关系型数据库一样,有自己的数据管理结构,从它的Server到Database再到…

    大数据 2021年11月14日
  • Spark Streaming 技术点汇总

    Spark Streaming 支持实时数据流的可扩展(Scalable)、高吞吐(high-throughput)、容错(fault-tolerant)的流处理(stream processing)。Spark Streaming 支持实时数据流的可扩展(Scalable)、高吞吐(high-throughput)、…

    大数据 2021年11月14日
  • hadoop2.6.5+sqoop1.4.6环境部署与测试(一)

    情景描述: 用户的登录信息以记录的方式被存放在mysql(版本为5.1.73)的表中,现打算使用sqoop将登录记录抽取并存放到hdfs上,并使用mapreduce程序统计每个用户的登录次数。 环境描述:采用4台虚拟机部署hadoop2.6.5…

    大数据 2021年11月14日
  • Hadoop伪模式配置

    练习环境: 操作系统:Ubuntu 16.04 LTS Hadoop版本:Hadoop 2.7.1 1.配置core-site.xml hadoop@dblab:/usr/local/hadoop/etc/hadoop$ vim core-site.xml <configuration>         <property>         …

    大数据 2021年11月14日
  • Hadoop软件的安装

    1.在home目录中创建文件夹MyApps2.将压缩文件解压到该目录下命令格式为:tar -zxvf 压缩文件 -C 解压路径3.配置网络环境4.1临时修改主机名临时设置的主机名,系统重启之后,会失效4.2永久修改主机名vi /etc/sysconf…

    大数据 2021年11月14日
  • 列表中的小方法

    本博文涉及到的方法有:index()、append()、insert()、remove()、sort()。 1.index():接受一个值,如果此值在列表中,就会返回它的下标;如果此值出现多次,只返回第一个下标 list = ['hello','world','…

    大数据 2021年11月14日
  • Reqtify与DOORS工具介绍

            这篇文章给大家分享的是有关Reqtify与DOORS工具的介绍。小编觉得挺实用的,因此分享给大家做个参考。一起跟随小编过来看看吧。         IBM Engineering Req…

    大数据 2021年11月14日
  • MR编程模型及MR V1讲解

    MR编程模型 MR编程模型主要分为五个步骤:输入、映射、分组、规约、输出。 输入(InputFormat):主要包含两个步骤—数据分片、迭代输入 数据分片(getSplits):数据分为多少个splits,就有多少个map task; 单个spl…

    大数据 2021年11月14日
  • Badboy自动化测试工具6 Variable Setter

    上一节我们学习了手动添加Variable list的值,Badboy提供了Variable setter工具,使用3种方式对list的数据进行填充。 我们接着使用lashou的脚本完成学习。 1. 将在Tools Tab中的Variable Setter拖入脚本中 2. 拖入…

    大数据 2021年11月14日