开源
-
大数据与传统数据
小编说:在这个人人都说大数据的时代,许多人对大数据的印象只是停留在仰望的阶段,其实大数据没人们说得那么神奇、玄乎或者是无所不能,今天我们就以传统数据作为比对,看看大数据究竟有什么特点让其处于时代的浪…
-
流式计算的三种框架:Storm、Spark和Flink
我们知道,大数据的计算模式主要分为批量计算(batch computing)、流式计算(stream computing)、交互计算(interactive computing)、图计算(graph computing)等。其中,流式计算和批量计算是两种主要的大数据计算模式…
-
JAVA NIO ServerSocketChannel(线程池版)
服务器端: import java.io.IOException; import java.net.InetSocketAddress; import java.nio.ByteBuffer; import java.nio.channels.SelectableChannel; import java.nio.channels.Sel…
-
ansible编写hadoop群集
Ansible实战:部署分布式日志系统 本节内容: 背景 分布式日志系统架构图 创建和使用roles JDK 7 role JDK 8 role Zookeeper role Kafka role Elasticsearch role MySQL role Nginx role Redis role Hadoop role Sp…
-
浅谈Spark内部运行机制
Spark中最重要的机制有那些? 1.RDD,2.Spark调度机制,3Shuffle过程 什么是RDD? 可以这么说,你懂了RDD,基本上就可以对Hadoop和Spark的一半给吃透了,那么到底是RDD RDD(弹性分布式数据集)首先体现数据集,RDD是…
-
hive ETL之物流行业-订单跟踪SLA sql
-- case1 -- --========== order_created ==========-- /* 10703007267488 2014-05-01 06:01:12.334+01 10101043505096 2014-05-01 …
-
DT大数据梦工厂-Scala学习笔记(1):Scala开发环境搭建和HelloWorld解析
一、scala是函数式编程和面向对象编程结合的语言,这两种编程的特点分别是什么? 答:函数式编程擅长数值的计算;面向对象编程特别适合于大型工程或项目的组织,以及团队的分工协作。 二、Scala的特…
-
以赋能业务为目标的技术创新
在软件研发从业者的视角里,创新分为两种:一种是与软件研发技术相关的创新,特别是在大数据和AI这种快速发展的领域,需要保持与技术进步的同频;而另一种创新,是与公司业务相关的,不断运用技术实现自动化、智能…
-
实现报表的可控缓存
使用缓存可以提升报表性能是不争的事实,一般高端报表工具都会提供报表缓存功能,可将整个报表计算结果缓存在文件系统中,以便用户下次访问相同参数的报表时可以快速读取缓存结果进行展现。但有些情况下报表开发人…