开源

  • spark2.x由浅入深深到底系列六之RDD api reduceByKey与foldByKey对比

    学习spark任何知识点之前,最好先正确理解spark,可以参考:正确理解spark 一、序言     对于key-value类型RDD的两个api, reduceByKey与foldByKey,我们往往只是简单的知道它们不同的点…

    大数据 2021年11月5日
  • Hadoop节点上负载过高的问题分析

    最近发现我们的hadoop集群的客户端机器负载经常飙到几百,导致机器反应很慢, 客户反应无法提交job,或者job跑的很慢。 针对这种情况通常有几个解决方案,一个是增加客户端机器数量,把他们做到一个pool里面,根据…

    大数据 2021年11月5日
  • Hadoop之HDFS的HA与QJM

    本文主要介绍HDFS HA特性,以及如何使用QJM(Quorum Journal Manager)特性实现HDFS HA。     一、背景     HDFS集群中只有一个Namenode,这就会引入单点问题;即如果Nameno…

    大数据 2021年11月5日
  • KMP 算法的应用(二十七)

            我们在上节博客中讲到了 KMP 算法的具体实现,那么我们本节就来看看 KMP 算法的应用。问题:如何在目标字符串中查找是否存在指定的子串?    &nbs…

    大数据 2021年11月5日
  • 阿里重磅开源 Blink:为什么我们等了这么久?

    今年,实时流计算技术开始步入主流,各大厂都在不遗余力地试用新的流计算框架,实时流计算引擎和 API 诸如 Spark Streaming、Kafka Streaming、Beam 和 Flink 持续火爆。阿里巴巴自 2015 年开始改进 Flink,并创建…

    大数据 2021年11月5日
  • Windows系统下如何安装Python以及对应pygame、matplotlib

    最近,准备学习Python这门编程语言。与其他语言一致,开始就要安装好编译环境和一些必须的工具。下面是我在初次安装Python环境时的一些经验和体会。 一, 准备好软件资源 1, 下载Python文件 https://www.python.or…

    大数据 2021年11月5日
  • 大数据环境搭建-之-hadoop 2.x分布式部署-集群配置

    1、 下载hadoop 并解压 2、为 hadoop 文件分配角色       chown -R hadoop:hadoop hadoop                        组名:角色名 &nbs…

    大数据 2021年11月5日
  • 8.spark core之读写数据

      spark支持多种数据源,从总体来分分为两大部分:文件系统和数据库。 文件系统   文件系统主要有本地文件系统、Amazon S3、HDFS等。   文件系统中存储的文件有多种存储格式。spark支持的一些常见格式有: 格式名称…

    大数据 2021年11月5日
  • Struts2.1.6+Spring2.0+Hibernate3.1整合图解教程(ssh223)

    在网上搜索了很多ssh323的配置文章,但有的开发环境不同,版本也不同,下面是我做的ssh323的开发配置教程,以供参考(因为是很久很久以前写的,因此环境有些古老,有用得到朋友根据实际情况来就OK) 开发环境:MyEcli…

    大数据 2021年11月5日
  • TestComplete中执行脚本时控件值未同步刷新问题

    今天写了一个程序安装的自动化脚本,调试的时候发现有些控件的值获取后一直未自动刷新,鉴于该问题,仔细分析和请教后,发现TestComplete不会自动刷新控件中变化的值,这需要我们自己去控制刷新。 1、定义一个延迟…

    大数据 2021年11月5日