大数据
-
数据库分库分表之后如何查询统计?
数据库分库分表是缓解数据库服务器压力和增加并发量的途径之一,但是随着分库分表之后,也不可避免的带来了一些问题,很显而易见的问题就是如何解决分库后的查询统计。分库之后没有SQL可以用了,简单的过滤后再合并…
-
selenium_webdriver 驱动不了浏览器问题
selenium_webdriver 驱动不了浏览器问题 最近很多同学,自己在学习selenium工具时,碰到一个最多的问题就是为什么我创建了一个浏览器实例,driver.get(url)时,却打不开浏览器,或者就算打…
-
Spark向Elasticsearch批量导入数据,出现重复记录问题的定位
看了下es-hadoop插件的源码: 发现ES导入数据重试情况的发生,除了在es.batch.write.retry.policy参数默认开启且es-hadoop插件向ES集群发送bulk写入请求接受到503响应码会重试3次之外。 本身执行http请求时,也会存…
-
RDD血缘关系源码详解!
一、RDD的依赖关系 RDD的依赖关系分为两类:宽依赖和窄依赖。我们可以这样认为: (1)窄依赖:每个parent RDD 的 partition 最多被 child RDD 的一个partition 使用。 (2)宽依赖:每个parent RDD partition 被多…
-
亲自动手搭建微服务框架和测试环境-11-Spring Framework
一、架构和组件关系图 Spring 5的架构图如下: 各组件之间的依赖图如下: Spring5有20 个组件(1300多个文件),这些组件被分别整合在核心容器(Core Container)、AOP(Aspect Oriented Programming)和设备支持(…
-
大数据入门指南(GitHub开源项目)
项目GitHub地址:https://github.com/heibaiying/BigData-Notes 前 言 大数据技术栈思维导图 大数据常用软件安装指南 一、Hadoop 分布式文件存储系统——HDFS 分布式计算框架——MapReduce 集群资源管理器——YARN Hadoop…
-
线上filebeat部署文档和使用方法
第一步:安装filebeat参考:https://www.elastic.co/guide/en/beats/filebeat/current/filebeat-installation.html 第二步:filebeat目录说明 Type Description Location home Home of the Filebeat installation. …
-
Apache Kylin: OOPS!Failed to Take Actions
kylin加载不出hive表,配置信息等也加载不出来,总是报Fail to take action。但后台都没有报错,题ERR_CONTENT_DECODING_FAILED,原因:前台报请求都能接收到,但是解压出了问题解决方法:关闭压缩,去tomcat的server…
-
maven-profile
profile的目的是什么?在我们实际的开发过程中会有dev、test、product等环境,或则不同的操作OS。而它们可能需要的配置参数是不一样的,比如:数据库。通常的做法就是在切换环境的同时修改我们的代码或则同一个prop…
-
Spark 中文分词
Spark 中文分词 一、导入需要的分词包 import org.ansj.domain.Term import org.ansj.recognition.impl.StopRecognition import org.ansj.splitWord.analysis.ToAnalysis 二、停用词过滤 def filter(stopWords: Arr…