开源
-
大数据时代,ETL工具的新标准正在削弱供应商价值!
如果你问企业“ETL工具重要吗?”我想答案一定是肯定的;如果你问企业“一定要选用商用ETL工具吗?”,这个结果就不见得那么统一了。ETL供应商足以应对不断变化的数据环境而更好得生存吗?ETL起源于数据仓库,虽然开发…
-
Java常见知识点汇总(①)——数据类型
一. Java中的数据类型变量就是申请内存来存储值。也就是说,当创建变量的时候,需要在内存中申请空间。 内存管理系统根据变量的类型为变量分配存储空间,分配的空间只能用来储存该类型数据。 因此,通过定义不同类…
-
化工行业影响订单分配的常见因素有哪些?
1. Sage X3 ERP 存货分配规则说明 • 分配和出货规则部分用于定义一个搜索子算法,称…
-
Intelli IDEA开发Spark工程关联Spark源码!
Intelli IDEA开发Spark工程关联Spark源码! 一、关联什么? 一般关联zip、jar等,但是Spark的源码是tgz格式的,没法关联,没关系,下载tgz的,解压缩成目录。 二、怎么关联? 第1步先选中工程。选择Project structu…
-
经济寒冬、大数据时代齐聚2019!IT从业者如何打破困境逆流而上?
在12月6日召开的2018年中国大数据技术会议上,CCF大数据专家委员会发布了《2019年大数据发展趋势预测》报告。它说,大数据和大数据已经成为所有新老技术、新老车型从辅助到领导、从热点到支点的必要基础。与2018年…
-
安装Pig
安装Pig是一项非常简单的工作,除了下载有点慢以外 1、安装好hadoop 2.x (略) 2、安装pig wget http://apache.dataguru.cn/pig/latest/pig-0.15.0.tar.gz tar zxvf pig-0.15.0.tar.gz -C /home/hadoop mv /home/h…
-
SPL 分组优化技巧
1. 常规分组 当分组聚合的结果集不大时,可以使用groups。例如有学生成绩表存储在集文件中,表结构如下: Scores class studentID subject score …… 现在计算每个学生的总分数: A 1 =file("scores.btx").im…
-
Spark 整合hive 实现数据的读取输出
实验环境: linux centOS 6.7 vmware虚拟机 spark-1.5.1-bin-hadoop-2.1.0 apache-hive-1.2.1 eclipse 或IntelJIDea 本次使用eclipse. 代码: import org.apache.spark.SparkConf; import org.apache.spark…
-
DataSet数据集在使用sql()时,无法使用map,flatMap等转换算子的解决办法
摘要 我们在使用spark的一个流程是:利用spark.sql()函数把数据读入到内存形成DataSet[Row](DataFrame)由于Row是新的spark数据集中无法实现自动的编码,需要对这个数据集进行编码,才能利用这些算子进行相关的操…