大数据
-
ansible编写hadoop群集
Ansible实战:部署分布式日志系统 本节内容: 背景 分布式日志系统架构图 创建和使用roles JDK 7 role JDK 8 role Zookeeper role Kafka role Elasticsearch role MySQL role Nginx role Redis role Hadoop role Sp…
-
浅谈Spark内部运行机制
Spark中最重要的机制有那些? 1.RDD,2.Spark调度机制,3Shuffle过程 什么是RDD? 可以这么说,你懂了RDD,基本上就可以对Hadoop和Spark的一半给吃透了,那么到底是RDD RDD(弹性分布式数据集)首先体现数据集,RDD是…
-
hive ETL之物流行业-订单跟踪SLA sql
-- case1 -- --========== order_created ==========-- /* 10703007267488 2014-05-01 06:01:12.334+01 10101043505096 2014-05-01 …
-
DT大数据梦工厂-Scala学习笔记(1):Scala开发环境搭建和HelloWorld解析
一、scala是函数式编程和面向对象编程结合的语言,这两种编程的特点分别是什么? 答:函数式编程擅长数值的计算;面向对象编程特别适合于大型工程或项目的组织,以及团队的分工协作。 二、Scala的特…
-
以赋能业务为目标的技术创新
在软件研发从业者的视角里,创新分为两种:一种是与软件研发技术相关的创新,特别是在大数据和AI这种快速发展的领域,需要保持与技术进步的同频;而另一种创新,是与公司业务相关的,不断运用技术实现自动化、智能…
-
实现报表的可控缓存
使用缓存可以提升报表性能是不争的事实,一般高端报表工具都会提供报表缓存功能,可将整个报表计算结果缓存在文件系统中,以便用户下次访问相同参数的报表时可以快速读取缓存结果进行展现。但有些情况下报表开发人…
-
Spark Streaming笔记整理(一):基本工作原理介绍
[TOC] 概述 大数据实时计算介绍 1、Spark Streaming,其实就是一种Spark提供的,对于大数据,进行实时计算的一种框架。它的底层,其实,也是基于我们之前讲解的Spark Core的。基本的计算模型,还是基于内存的大数据…
-
如何区分统计员工给公司的微信公众号拉多少人
微信公众号给员工推广,每个员工的二维码都是唯一,二维码记录员工拉了多少人关注公众号。这样的效果只有通过公众号带参数的二维码接口才能实现,懂代码可以直接阅读技术文档实现,不懂代码可以用微号帮平台渠道二…
-
Greenplu数据库的部署
简单介绍 Greenplum基于postgre数据库开发,是一个关系型数据库集群,它实际上是由多个postgre数据库服务组合成的逻辑数据库集群。它包含两个角色,master和segment。它将一个表的数据均…
-
spark写orc格式文件
在hive中建表格式存储格式为orc create table user(id int,name string) stored as orc; spark写文件 val jsons = "hdfs:…