开源 | 第971页

学习spark任何知识点之前，最好先正确理解spark，可以参考：正确理解spark 一、序言对于key-value类型RDD的两个api， reduceByKey与foldByKey，我们往往只是简单的知道它们不同的点…

大数据 2021年11月5日

0

最近发现我们的hadoop集群的客户端机器负载经常飙到几百，导致机器反应很慢，客户反应无法提交job，或者job跑的很慢。针对这种情况通常有几个解决方案，一个是增加客户端机器数量，把他们做到一个pool里面，根据…

大数据 2021年11月5日

0

本文主要介绍HDFS HA特性，以及如何使用QJM(Quorum Journal Manager)特性实现HDFS HA。一、背景 HDFS集群中只有一个Namenode，这就会引入单点问题；即如果Nameno…

大数据 2021年11月5日

0

我们在上节博客中讲到了 KMP 算法的具体实现，那么我们本节就来看看 KMP 算法的应用。问题：如何在目标字符串中查找是否存在指定的子串？ &nbs…

大数据 2021年11月5日

0

今年，实时流计算技术开始步入主流，各大厂都在不遗余力地试用新的流计算框架，实时流计算引擎和 API 诸如 Spark Streaming、Kafka Streaming、Beam 和 Flink 持续火爆。阿里巴巴自 2015 年开始改进 Flink，并创建…

大数据 2021年11月5日

0

最近，准备学习Python这门编程语言。与其他语言一致，开始就要安装好编译环境和一些必须的工具。下面是我在初次安装Python环境时的一些经验和体会。一，准备好软件资源 1，下载Python文件 https://www.python.or…

大数据 2021年11月5日

0

1、下载hadoop 并解压 2、为 hadoop 文件分配角色 chown -R hadoop:hadoop hadoop 组名：角色名 &nbs…

大数据 2021年11月5日

0

spark支持多种数据源，从总体来分分为两大部分：文件系统和数据库。文件系统文件系统主要有本地文件系统、Amazon S3、HDFS等。文件系统中存储的文件有多种存储格式。spark支持的一些常见格式有：格式名称…

大数据 2021年11月5日

0

在网上搜索了很多ssh323的配置文章，但有的开发环境不同，版本也不同，下面是我做的ssh323的开发配置教程，以供参考(因为是很久很久以前写的，因此环境有些古老，有用得到朋友根据实际情况来就OK) 开发环境：MyEcli…

大数据 2021年11月5日

0

今天写了一个程序安装的自动化脚本，调试的时候发现有些控件的值获取后一直未自动刷新，鉴于该问题，仔细分析和请教后，发现TestComplete不会自动刷新控件中变化的值，这需要我们自己去控制刷新。 1、定义一个延迟…

大数据 2021年11月5日

0