大数据

  • 经济寒冬、大数据时代齐聚2019!IT从业者如何打破困境逆流而上?

    在12月6日召开的2018年中国大数据技术会议上,CCF大数据专家委员会发布了《2019年大数据发展趋势预测》报告。它说,大数据和大数据已经成为所有新老技术、新老车型从辅助到领导、从热点到支点的必要基础。与2018年…

    大数据 2021年11月17日
  • 安装Pig

    安装Pig是一项非常简单的工作,除了下载有点慢以外 1、安装好hadoop 2.x (略) 2、安装pig wget http://apache.dataguru.cn/pig/latest/pig-0.15.0.tar.gz tar zxvf pig-0.15.0.tar.gz -C /home/hadoop mv /home/h…

    大数据 2021年11月17日
  • SPL 分组优化技巧

    1.      常规分组 当分组聚合的结果集不大时,可以使用groups。例如有学生成绩表存储在集文件中,表结构如下: Scores class studentID subject score ……   现在计算每个学生的总分数: A 1 =file("scores.btx").im…

    大数据 2021年11月17日
  • Spark 整合hive 实现数据的读取输出

    实验环境: linux centOS 6.7 vmware虚拟机 spark-1.5.1-bin-hadoop-2.1.0 apache-hive-1.2.1 eclipse 或IntelJIDea 本次使用eclipse. 代码: import org.apache.spark.SparkConf; import org.apache.spark…

    大数据 2021年11月17日
  • DataSet数据集在使用sql()时,无法使用map,flatMap等转换算子的解决办法

    摘要 我们在使用spark的一个流程是:利用spark.sql()函数把数据读入到内存形成DataSet[Row](DataFrame)由于Row是新的spark数据集中无法实现自动的编码,需要对这个数据集进行编码,才能利用这些算子进行相关的操…

    大数据 2021年11月17日
  • 如何快速找到某一个程序占用的端口号?-软件测试

    上一节,我们讲过,IP与端口之前的关系。以及目前我们学的软件的端口号。(这可是面试题)那今天来聊聊,如何快速找到某一个程序占用的端口号?例子:fiddle;环境:windows1:运行fiddle2:运行后打开:任务管理器…

    大数据 2021年11月17日
  • Ambari启动hue报错

    查看/usr/log/hue/error.log发现如下问题 [24/Nov/2019 16:57:53 ] supervisor ERROR Process /usr/lib/hue/build/env/bin/hue kt_renewer exited abnormally. Restarting it. [24/Nov/2019 16:57:53 ] supervisor …

    大数据 2021年11月17日
  • SparkStreamingContext

    创建SparkStreamingContext 1)val conf=new SparkConf().setMaster("local[2]").setAppName("wordcount")       val streamContext=new StreamingContext(conf,Seconds(5))     2)val sps…

    大数据 2021年11月17日
  • 体系结构方案 - 大清单报表

    一般的报表工具或 BI 系统都是怎么实现大清单报表的呢?•数据全部读出,直接报表呈现•游标方式逐步读入呈现•使用数据库的分页机制按页读出传统模式实现问题:1)全量读模式,全部读出耗时太长,用户体验恶劣;全内…

    大数据 2021年11月17日