大数据
-
Easy Scheduler 1.0.3 发布,分布式工作流任务调度系统
Easy Scheduler Release 1.0.3 Easy Scheduler 1.0.3是1.x系列中的第四个版本。 新特性: [EasyScheduler-254] 流程定义删除和批量删除 [EasyScheduler-347] 任务依赖增加“今日” [EasyScheduler-273]sql任务添加tit…
-
Spark学习之路---Spark核心概念
Spark核心概念简介 一个Spark应用都由驱动器程序发起集群上的各种并发操作,一个驱动器程序一般包含多个执行器节点,驱动器程序通过一个SaprkContext对象访问sapr…
-
Spark集群硬件配置推荐
Spark集群硬件配置推荐 计算与存储: 大多数Spark作业可能需要从外部存储系统(例如 :Cassandra、Hadoop文件系统或HBase)读取输入数据,所以要让Spark计算引擎尽可能靠近数据持久层。如果使用HDFS作为数据存储集…
-
数据为王,大数据能为企业带来什么?
据了解,互联网上每一秒钟传输的视频,需要花费一个人5年的时间才能看完。可以说,用“海量、爆炸性增长”来形容大数据,已经不是什么新鲜事了。 大数据已成为全球IT支出的新增长点,这块不…
-
xmpp+openfire+spark+centos 安装
1、环境准备 centos6.5x64 , 2、卸载系统自带的jdk rpm -qa|grep jdk rpm -e --nodeps java* 3、安装jdk rpm -ivh jdk-8u66-linux-x64.rpm 4、vi /etc/profile 输入o,在最后加入以下内容: JAVA_HOME…
-
sqoop使用手册--mysql配置
首先在安装了mysql数据库的那台虚拟机上面执行mysql -u root -p进入sql的密码为空create database stock;grant all privileges on . to root@localhost identified by ’transwarp';flush privileges; //刷新系统权…
-
Spark笔记整理(四):Spark RDD算子实战
[TOC] Spark算子概述 RDD:弹性分布式数据集,是一种特殊集合、支持多种来源、有容错机制、可以被缓存、支持并行操作,一个RDD代表多个分区里的数据集。 RDD有两种操作算子: Transformation(转换):Transformati…
-
大数据分布式内存
一.创建目录1.mkdir -p /home/mongodb/data/master 2.mkdir -p /home/mongodb/data/slaver 3.mkdir -p /home/mongodb/data/arbiter二.配置文件1.创建master.conf文件#master.confdbpath=/home/mongodb/data/ma…
-
kafka kerberos 认证访问与非认证访问共存下的ACL问题
在一个正在运行的kafka集群中添加kerberos认证和ACL权限控制,同时保证以前所有的producer/consumer服务不中断 解决方式: 使kafka集群监听两个端口,一个为无认证连接,另一个为kerberos的认证连接 这时候在配置AC…