开源

  • 按第一例相同项求第二列的值

    文件test: 文本内容如下:a 2b 3c 6a 8d 9处理方法,如果第一列相同,第二列值相加(比如a 10),处理完毕后,打印第二列的值大于8的数据。 awk: awk '{a[$1]+=$2;}END{for(i in a){if(a[i]>8){…

    大数据 2021年11月14日
  • 10 行代码解决漏斗转换计算之性能优化

    大话数据计算性能优化 大数据分析的性能优化,说道底,就优化一个事情:针对确定的一个计算任务(数据确定,结果确定),以最经济的方案得到结果。 这个最经济的方案主要考量三个成本:时间成本、硬件成本、软件成…

    大数据 2021年11月14日
  • UML系列:(3)Sequence Diagram

    1、时序图的作用 时序图Sequence Diagram是强调消息时间顺序的交互图。 时序图描述类系统中对象和对象之间的交互。 时序图是一个模型,用于描述对象组如何随着时间在某些行为方面的交互。 2、时序图的元素 角色(Act…

    大数据 2021年11月14日
  • 9.spark core之共享变量

    简介   spark执行操作时,可以使用驱动器程序Driver中定义的变量,但有时这种默认的使用方式却并不理想。 集群中运行的每个任务都会连接驱动器获取变量。如果获取的变量比较大,执行效率会非常低下。 每个任务都会…

    大数据 2021年11月14日
  • 解决bootstrap两层模态框隐藏时的滚动异常

    现象:两层模态框,在上层模态框隐藏后,底层模态框无法滚动 原因:模态框在打开的时候,会隐藏掉父标签的滚动条,关闭的时候会恢复回去,把滚动条加到父标签,所以,有两层模态框的时候,上层关闭时,一般会把滚动…

    大数据 2021年11月14日
  • hive的基础理论

    1. hive的介绍    什么是hive:Hive是基于hadoop的一个数据仓库工具,实质就是一款基于hdfs的MapReduce计算框架,对存储在HDFS中的数据进行分析和管理。   hive的工作方式:把存放在hive中的数…

    大数据 2021年11月14日
  • 在ubuntu系统下安装hadoop

    一直想写一下自己学习hadoop的经历,用来协助自己了解整个学习的进程,并帮助更多的初学者进行学习。本文介绍的所有信息都是在ubuntu14.04上,jdk1.8,hadoop2.7.4下面分几部分介绍些整个的学习进程。1、ubuntu系统…

    大数据 2021年11月14日
  • 7、服务发现&服务消费者Ribbon

    在《服务注册&服务提供者》这一篇可能学习了这么开发一个服务提供者,在生成上服务提供者通常是部署在内网上,即是服务提供者所在的服务器是与互联网完全隔离的。这篇说下服务发现(服务消费者),通常服务消费…

    大数据 2021年11月14日
  • hadoop四----数据收集flume

    Flume是一个分布式的、可靠的、可用的服务,用于从许多不同的源上有效地搜集、汇总、移动大量数据日志到一个集中式的数据存储中。并且它是一个简单的和灵活的基于流的数据流架构。它具有鲁棒性和容错机制以及故障转…

    大数据 2021年11月14日
  • 大型企业云化2.0的深度思考与展望

                伴随着IT新技术的发展,像虚拟化、云计算和大数据对大家来说已经不再陌生了。在企业里面进行云化实施的时候,各种新技术在优势显现的同时,随之而来的问题也比较多…

    大数据 2021年11月14日