开源

  • hive中任意相邻时间段数据获取

    通过sql语句获取相邻时段数据不比通过其它编程语言,因为sql里面没有for循环,故在实现时需要增加一份副表数据,这里对该方法做一个记录。背景:获取2017年全年平台用户进出贵州省的次数(分为进港次数和出港次数)…

    大数据 2021年11月16日
  • Spark 简介

    ==> 什么是 Spark     ---> Spark 是一个针对大规模数据处理的快速通用引擎     ---> Spark 是 MapReduce 的替代方案,而且…

    大数据 2021年11月16日
  • 敏捷开发基础篇(一)-流程与角色基本概念

    一、Agile开发模式 Agile开发模式包括四大部分:Product Backlog(产品用户故事)、Sprint Backlog(迭代用户故事)、Backlog tasks(用户故事开发任务,迭代中完成)、Retrospective(迭代反思会)   …

    大数据 2021年11月16日
  • 测试用例编写规范

    1目的 (1)为用例的质量负责,使用例编写工作能够有序、合理; (2)统一测试用例编写的规范,为测试设计人员提供测试用例编写的指导,提高编写的测试用例的可读性,可执行性、合理性; (3)能有效的提高系统所有…

    大数据 2021年11月16日
  • App软件的类型

    这里的类型不是指新闻类App、商城类App,而是指开发类型,主要分为三种: 原生开发:指利用安卓、iOS官方的开发工具进行开发,这样开发出的App,性能可靠、功能多、用户体验比较好,但是开发难度大,成本高,周期长…

    大数据 2021年11月16日
  • Java资料

    Eclipse中文教程:http://down.51cto.com/data/271887 Java编码规范:http://geek.csdn.net/news/detail/238808

    大数据 2021年11月16日
  • 记一次hadoop大数据导出

    需求:导出一个月数据提供测试分析 实施: 直接hive -e “xxxxx”> testdata.txt 然后看输出信息,map%1 %2 %3...... %100,但是reduce一直是0%,等啊等,等了十几个小时,还是0%,最后杀掉进程,再试了几次,现象…

    大数据 2021年11月16日
  • Ganglia安装文档

    一、需求:    结合公司环境hadoop1.0和2.0集群,选择了Ganglia作为本公司集群监控项目 二、Ganglia介绍 1.Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。Ganglia的核心…

    大数据 2021年11月16日
  • Flink kafka 定制技巧

    动态路由:方案1: 定制一个特殊的KafkaDynamicSink,内嵌多个原生的FlinkKafkaProducer,每个对应一个下游的KAFKA队列在OPEN方法中读取所有KAFKA渠道配置并构建FlinkKafkaProducer并构建一个Map: kafka channelId -&…

    大数据 2021年11月16日
  • 云计算技术及性能优化

    云计算: 就是,将这些设备进行虚拟化。 包括服务器,及其它一些应用的设备。 分布式计算: 什么是分布式计算 云计算服务可以看成:云存储+云计算。 典型的分布式计算

    大数据 2021年11月16日