大数据 | 第1494页

数据库分库分表之后如何查询统计？

数据库分库分表是缓解数据库服务器压力和增加并发量的途径之一，但是随着分库分表之后，也不可避免的带来了一些问题，很显而易见的问题就是如何解决分库后的查询统计。分库之后没有SQL可以用了，简单的过滤后再合并…

大数据 2021年11月16日

0

selenium_webdriver 驱动不了浏览器问题

selenium_webdriver 驱动不了浏览器问题最近很多同学，自己在学习selenium工具时，碰到一个最多的问题就是为什么我创建了一个浏览器实例，driver.get(url)时，却打不开浏览器，或者就算打…

大数据 2021年11月16日

0

Spark向Elasticsearch批量导入数据，出现重复记录问题的定位

看了下es-hadoop插件的源码：发现ES导入数据重试情况的发生，除了在es.batch.write.retry.policy参数默认开启且es-hadoop插件向ES集群发送bulk写入请求接受到503响应码会重试3次之外。本身执行http请求时，也会存…

大数据 2021年11月16日

0

RDD血缘关系源码详解！

一、RDD的依赖关系 RDD的依赖关系分为两类：宽依赖和窄依赖。我们可以这样认为：（1）窄依赖：每个parent RDD 的 partition 最多被 child RDD 的一个partition 使用。（2）宽依赖：每个parent RDD partition 被多…

大数据 2021年11月16日

0

亲自动手搭建微服务框架和测试环境-11-Spring Framework

一、架构和组件关系图 Spring 5的架构图如下：各组件之间的依赖图如下： Spring5有20 个组件（1300多个文件），这些组件被分别整合在核心容器（Core Container）、AOP（Aspect Oriented Programming）和设备支持（…

大数据 2021年11月16日

0

大数据入门指南（GitHub开源项目）

项目GitHub地址：https://github.com/heibaiying/BigData-Notes 前言大数据技术栈思维导图大数据常用软件安装指南一、Hadoop 分布式文件存储系统——HDFS 分布式计算框架——MapReduce 集群资源管理器——YARN Hadoop…

大数据 2021年11月16日

0

线上filebeat部署文档和使用方法

第一步：安装filebeat参考：https://www.elastic.co/guide/en/beats/filebeat/current/filebeat-installation.html 第二步：filebeat目录说明 Type Description Location home Home of the Filebeat installation. …

大数据 2021年11月16日

0

Apache Kylin: OOPS!Failed to Take Actions

kylin加载不出hive表，配置信息等也加载不出来，总是报Fail to take action。但后台都没有报错,题ERR_CONTENT_DECODING_FAILED,原因：前台报请求都能接收到，但是解压出了问题解决方法：关闭压缩，去tomcat的server…

大数据 2021年11月16日

0

maven-profile

profile的目的是什么？在我们实际的开发过程中会有dev、test、product等环境，或则不同的操作OS。而它们可能需要的配置参数是不一样的，比如：数据库。通常的做法就是在切换环境的同时修改我们的代码或则同一个prop…

大数据 2021年11月16日

0

Spark 中文分词

Spark 中文分词一、导入需要的分词包 import org.ansj.domain.Term import org.ansj.recognition.impl.StopRecognition import org.ansj.splitWord.analysis.ToAnalysis 二、停用词过滤 def filter(stopWords: Arr…

大数据 2021年11月16日

0