大数据

  • Easy Scheduler 1.0.3 发布,分布式工作流任务调度系统

    Easy Scheduler Release 1.0.3 Easy Scheduler 1.0.3是1.x系列中的第四个版本。 新特性: [EasyScheduler-254] 流程定义删除和批量删除 [EasyScheduler-347] 任务依赖增加“今日” [EasyScheduler-273]sql任务添加tit…

    大数据 2021年11月15日
  • Spark学习之路---Spark核心概念

    Spark核心概念简介         一个Spark应用都由驱动器程序发起集群上的各种并发操作,一个驱动器程序一般包含多个执行器节点,驱动器程序通过一个SaprkContext对象访问sapr…

    大数据 2021年11月15日
  • Spark集群硬件配置推荐

    Spark集群硬件配置推荐 计算与存储: 大多数Spark作业可能需要从外部存储系统(例如 :Cassandra、Hadoop文件系统或HBase)读取输入数据,所以要让Spark计算引擎尽可能靠近数据持久层。如果使用HDFS作为数据存储集…

    大数据 2021年11月15日
  • 数据为王,大数据能为企业带来什么?

    据了解,互联网上每一秒钟传输的视频,需要花费一个人5年的时间才能看完。可以说,用“海量、爆炸性增长”来形容大数据,已经不是什么新鲜事了。      大数据已成为全球IT支出的新增长点,这块不…

    大数据 2021年11月15日
  • xmpp+openfire+spark+centos 安装

    1、环境准备 centos6.5x64 , 2、卸载系统自带的jdk rpm -qa|grep jdk rpm -e --nodeps  java* 3、安装jdk rpm -ivh  jdk-8u66-linux-x64.rpm 4、vi /etc/profile 输入o,在最后加入以下内容: JAVA_HOME…

    大数据 2021年11月15日
  • sqoop使用手册--mysql配置

    首先在安装了mysql数据库的那台虚拟机上面执行mysql -u root -p进入sql的密码为空create database stock;grant all privileges on . to root@localhost identified by ’transwarp';flush privileges; //刷新系统权…

    大数据 2021年11月15日
  • Spark笔记整理(四):Spark RDD算子实战

    [TOC] Spark算子概述 RDD:弹性分布式数据集,是一种特殊集合、支持多种来源、有容错机制、可以被缓存、支持并行操作,一个RDD代表多个分区里的数据集。 RDD有两种操作算子: Transformation(转换):Transformati…

    大数据 2021年11月15日
  • 大数据分布式内存

    一.创建目录1.mkdir -p /home/mongodb/data/master 2.mkdir -p /home/mongodb/data/slaver 3.mkdir -p /home/mongodb/data/arbiter二.配置文件1.创建master.conf文件#master.confdbpath=/home/mongodb/data/ma…

    大数据 2021年11月15日
  • kafka kerberos 认证访问与非认证访问共存下的ACL问题

    在一个正在运行的kafka集群中添加kerberos认证和ACL权限控制,同时保证以前所有的producer/consumer服务不中断 解决方式: 使kafka集群监听两个端口,一个为无认证连接,另一个为kerberos的认证连接 这时候在配置AC…

    大数据 2021年11月15日