开源

  • Spark SQL性能优化

    ==> 在内存中缓存数据     ---> 性能调优主要是将数据放入内存中操作     ---> 使用例子: // 从 Oracle 数据库中读取数据,生成 Data…

    大数据 2021年11月16日
  • Hive 查询中的分组排名

    语法:ROW_NUMBER() OVER(PARTITION BY COLUMN<针对排名的字段> ORDER BY COLUMN<需要排名的字段>  (desc<倒序>)) SELECT *, Row_Number() OVER (partition by deptid ORDER BY salary de…

    大数据 2021年11月16日
  • 接口自动化测试PHPUnit-框架代码开发1

    经过上一篇的架构设计之后,我们就要开始编写代码了,因为涉及代码较多,所以将分多次进行讲解。 先看一张整体结构图 今天我们先来看看testcase文件里的编写。此处我们以之前的老黄历接口为例。 lhl_test.php内容如…

    大数据 2021年11月16日
  • Hadoop维护实战-设置hdfs副本数 dfs.replication

    Hadoop维护实战 设置hdfs副本数 dfs.replication 有个临时应用,使用临时调配的机器,机器磁盘差别数十倍。 在使用hadoop存储数据时导致小磁盘机器使用率达80%多,而大磁盘机器使用不过才10%多一点。 明显的ha…

    大数据 2021年11月16日
  • 数据库分库分表之后如何查询统计?

    数据库分库分表是缓解数据库服务器压力和增加并发量的途径之一,但是随着分库分表之后,也不可避免的带来了一些问题,很显而易见的问题就是如何解决分库后的查询统计。分库之后没有SQL可以用了,简单的过滤后再合并…

    大数据 2021年11月16日
  • selenium_webdriver 驱动不了浏览器问题

    selenium_webdriver 驱动不了浏览器问题     最近很多同学,自己在学习selenium工具时,碰到一个最多的问题就是为什么我创建了一个浏览器实例,driver.get(url)时,却打不开浏览器,或者就算打…

    大数据 2021年11月16日
  • Spark向Elasticsearch批量导入数据,出现重复记录问题的定位

    看了下es-hadoop插件的源码: 发现ES导入数据重试情况的发生,除了在es.batch.write.retry.policy参数默认开启且es-hadoop插件向ES集群发送bulk写入请求接受到503响应码会重试3次之外。 本身执行http请求时,也会存…

    大数据 2021年11月16日
  • RDD血缘关系源码详解!

    一、RDD的依赖关系 RDD的依赖关系分为两类:宽依赖和窄依赖。我们可以这样认为: (1)窄依赖:每个parent RDD 的 partition 最多被 child RDD 的一个partition 使用。 (2)宽依赖:每个parent RDD partition 被多…

    大数据 2021年11月16日
  • 亲自动手搭建微服务框架和测试环境-11-Spring Framework

    一、架构和组件关系图 Spring 5的架构图如下: 各组件之间的依赖图如下: Spring5有20 个组件(1300多个文件),这些组件被分别整合在核心容器(Core Container)、AOP(Aspect Oriented Programming)和设备支持(…

    大数据 2021年11月16日
  • 大数据入门指南(GitHub开源项目)

    项目GitHub地址:https://github.com/heibaiying/BigData-Notes 前 言 大数据技术栈思维导图 大数据常用软件安装指南 一、Hadoop 分布式文件存储系统——HDFS 分布式计算框架——MapReduce 集群资源管理器——YARN Hadoop…

    大数据 2021年11月16日