大数据

  • 数据库分库分表之后如何查询统计?

    数据库分库分表是缓解数据库服务器压力和增加并发量的途径之一,但是随着分库分表之后,也不可避免的带来了一些问题,很显而易见的问题就是如何解决分库后的查询统计。分库之后没有SQL可以用了,简单的过滤后再合并…

    大数据 2021年11月16日
  • selenium_webdriver 驱动不了浏览器问题

    selenium_webdriver 驱动不了浏览器问题     最近很多同学,自己在学习selenium工具时,碰到一个最多的问题就是为什么我创建了一个浏览器实例,driver.get(url)时,却打不开浏览器,或者就算打…

    大数据 2021年11月16日
  • Spark向Elasticsearch批量导入数据,出现重复记录问题的定位

    看了下es-hadoop插件的源码: 发现ES导入数据重试情况的发生,除了在es.batch.write.retry.policy参数默认开启且es-hadoop插件向ES集群发送bulk写入请求接受到503响应码会重试3次之外。 本身执行http请求时,也会存…

    大数据 2021年11月16日
  • RDD血缘关系源码详解!

    一、RDD的依赖关系 RDD的依赖关系分为两类:宽依赖和窄依赖。我们可以这样认为: (1)窄依赖:每个parent RDD 的 partition 最多被 child RDD 的一个partition 使用。 (2)宽依赖:每个parent RDD partition 被多…

    大数据 2021年11月16日
  • 亲自动手搭建微服务框架和测试环境-11-Spring Framework

    一、架构和组件关系图 Spring 5的架构图如下: 各组件之间的依赖图如下: Spring5有20 个组件(1300多个文件),这些组件被分别整合在核心容器(Core Container)、AOP(Aspect Oriented Programming)和设备支持(…

    大数据 2021年11月16日
  • 大数据入门指南(GitHub开源项目)

    项目GitHub地址:https://github.com/heibaiying/BigData-Notes 前 言 大数据技术栈思维导图 大数据常用软件安装指南 一、Hadoop 分布式文件存储系统——HDFS 分布式计算框架——MapReduce 集群资源管理器——YARN Hadoop…

    大数据 2021年11月16日
  • 线上filebeat部署文档和使用方法

    第一步:安装filebeat参考:https://www.elastic.co/guide/en/beats/filebeat/current/filebeat-installation.html 第二步:filebeat目录说明 Type Description Location home Home of the Filebeat installation. …

    大数据 2021年11月16日
  • Apache Kylin: OOPS!Failed to Take Actions

    kylin加载不出hive表,配置信息等也加载不出来,总是报Fail to take action。但后台都没有报错,题ERR_CONTENT_DECODING_FAILED,原因:前台报请求都能接收到,但是解压出了问题解决方法:关闭压缩,去tomcat的server…

    大数据 2021年11月16日
  • maven-profile

    profile的目的是什么?在我们实际的开发过程中会有dev、test、product等环境,或则不同的操作OS。而它们可能需要的配置参数是不一样的,比如:数据库。通常的做法就是在切换环境的同时修改我们的代码或则同一个prop…

    大数据 2021年11月16日
  • Spark 中文分词

    Spark 中文分词 一、导入需要的分词包 import org.ansj.domain.Term import org.ansj.recognition.impl.StopRecognition import org.ansj.splitWord.analysis.ToAnalysis 二、停用词过滤 def filter(stopWords: Arr…

    大数据 2021年11月16日