大数据

  • predictionio优化

    predictionio 的validScores方法 有点问题,因为model对象中的一个属性类型为Map<String, Item> items,在数据量很大的时候,肯定是不行,所以优化一下,采用join+filter的模式,代码如下 return all.mapToPa…

    大数据 2021年11月16日
  • 一个引发程序员们干架的问题

    如果第二次看到我的文章,欢迎「文末」扫码订阅我个人的公众号(跨界架构师)哟~  每周五早8点 按时送达到公众号。当然了,也会时不时加个餐~   在一个分布式系统的开发团队中,有一些问题是很容易产生程序员之间…

    大数据 2021年11月16日
  • loadrunner虚拟用户脚本开发(一)

    一、loadrunner虚拟用户开发---变量详细解析   变量的定义 局部变量和全局变量 1、在init  action end中定义的变量就是局部变量 2、在gloabal中定义的变量是全局变量 3、什么时候定义全局变量? 整个过程…

    大数据 2021年11月16日
  • Elasticsearch x-pack安装配置

    官方文档:https://www.elastic.co/guide/en/x-pack/5.0/installing-xpack.html 在集群中的每个节点上运行以下命令bin/elasticsearch-plugin install x-pack 确认给x-pack授予额外的权限 修改elasticsearch配置elas…

    大数据 2021年11月16日
  • 十步法原则解决数据质量问题

    一、相关概念 1.1 数据质量 数据的一组固有属性满足数据消费者要求的程度。 1)数据固有属性 真实性:即数据是客观世界的真实反映 及时性:即数据是随着变化及时更新的 相关性:即数据是数据消费者关注和需要的 2)…

    大数据 2021年11月16日
  • HADOOP监控

    Hadoop负载均衡 均衡器(balancer)是一个Hadoop守护进程,它将块从忙碌的datanode移到相对空闲的datanode,从而重新分配块。同时坚持块副本放置策略,将副本分散到不同机架,以降低数据损坏率。它不断移动块,直到…

    大数据 2021年11月16日
  • InfoBeat赋能移动应用,助推业务增长

    随着计算机处理能力日益强大,大数据带来的价值成倍攀升。大数据优化资源配置,提高人们的决策能力,驱动着“信息社会”向“智能社会”过渡。利用大数据做好互联网产品的精细化运营,这种思路相信大家都是认可的,那具…

    大数据 2021年11月16日
  • centos安装zeromq, jzmq

    先安装各种所需的依赖包 # yum install gcc # yum install gcc-c++  libtool jzmq 是zeromq 的java客户端 下载地址 https://github.com/zeromq/jzmq/downloads

    大数据 2021年11月16日
  • Hadoop1.x版本升级Hadoop2.x

    引言 随着企业数据化和Hadoop的应用越加广泛,hadoop1.x的框架设计越来越无法满足人们对需求,Apache一直在对Hadoop1.x进行修改,最后推出了新一代的Hadoop2.x。从业界使用分布式系统的变化趋势和 hadoop 框架的长…

    大数据 2021年11月16日
  • SparkStreaming消费kafka数据

    概要:本例子为SparkStreaming消费kafka消息的例子,实现的功能是将数据实时的进行抽取、过滤、转换,然后存储到HDFS中。 实例代码 package com.fwmagic.test import com.alibaba.fastjson.{JSON, JSONException} i…

    大数据 2021年11月16日