开源
-
hive中任意相邻时间段数据获取
通过sql语句获取相邻时段数据不比通过其它编程语言,因为sql里面没有for循环,故在实现时需要增加一份副表数据,这里对该方法做一个记录。背景:获取2017年全年平台用户进出贵州省的次数(分为进港次数和出港次数)…
-
Spark 简介
==> 什么是 Spark ---> Spark 是一个针对大规模数据处理的快速通用引擎 ---> Spark 是 MapReduce 的替代方案,而且…
-
敏捷开发基础篇(一)-流程与角色基本概念
一、Agile开发模式 Agile开发模式包括四大部分:Product Backlog(产品用户故事)、Sprint Backlog(迭代用户故事)、Backlog tasks(用户故事开发任务,迭代中完成)、Retrospective(迭代反思会) …
-
测试用例编写规范
1目的 (1)为用例的质量负责,使用例编写工作能够有序、合理; (2)统一测试用例编写的规范,为测试设计人员提供测试用例编写的指导,提高编写的测试用例的可读性,可执行性、合理性; (3)能有效的提高系统所有…
-
App软件的类型
这里的类型不是指新闻类App、商城类App,而是指开发类型,主要分为三种: 原生开发:指利用安卓、iOS官方的开发工具进行开发,这样开发出的App,性能可靠、功能多、用户体验比较好,但是开发难度大,成本高,周期长…
-
Java资料
Eclipse中文教程:http://down.51cto.com/data/271887 Java编码规范:http://geek.csdn.net/news/detail/238808
-
记一次hadoop大数据导出
需求:导出一个月数据提供测试分析 实施: 直接hive -e “xxxxx”> testdata.txt 然后看输出信息,map%1 %2 %3...... %100,但是reduce一直是0%,等啊等,等了十几个小时,还是0%,最后杀掉进程,再试了几次,现象…
-
Ganglia安装文档
一、需求: 结合公司环境hadoop1.0和2.0集群,选择了Ganglia作为本公司集群监控项目 二、Ganglia介绍 1.Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。Ganglia的核心…
-
Flink kafka 定制技巧
动态路由:方案1: 定制一个特殊的KafkaDynamicSink,内嵌多个原生的FlinkKafkaProducer,每个对应一个下游的KAFKA队列在OPEN方法中读取所有KAFKA渠道配置并构建FlinkKafkaProducer并构建一个Map: kafka channelId -&…
-
云计算技术及性能优化
云计算: 就是,将这些设备进行虚拟化。 包括服务器,及其它一些应用的设备。 分布式计算: 什么是分布式计算 云计算服务可以看成:云存储+云计算。 典型的分布式计算