大数据
-
predictionio优化
predictionio 的validScores方法 有点问题,因为model对象中的一个属性类型为Map<String, Item> items,在数据量很大的时候,肯定是不行,所以优化一下,采用join+filter的模式,代码如下 return all.mapToPa…
-
一个引发程序员们干架的问题
如果第二次看到我的文章,欢迎「文末」扫码订阅我个人的公众号(跨界架构师)哟~ 每周五早8点 按时送达到公众号。当然了,也会时不时加个餐~ 在一个分布式系统的开发团队中,有一些问题是很容易产生程序员之间…
-
loadrunner虚拟用户脚本开发(一)
一、loadrunner虚拟用户开发---变量详细解析 变量的定义 局部变量和全局变量 1、在init action end中定义的变量就是局部变量 2、在gloabal中定义的变量是全局变量 3、什么时候定义全局变量? 整个过程…
-
Elasticsearch x-pack安装配置
官方文档:https://www.elastic.co/guide/en/x-pack/5.0/installing-xpack.html 在集群中的每个节点上运行以下命令bin/elasticsearch-plugin install x-pack 确认给x-pack授予额外的权限 修改elasticsearch配置elas…
-
十步法原则解决数据质量问题
一、相关概念 1.1 数据质量 数据的一组固有属性满足数据消费者要求的程度。 1)数据固有属性 真实性:即数据是客观世界的真实反映 及时性:即数据是随着变化及时更新的 相关性:即数据是数据消费者关注和需要的 2)…
-
HADOOP监控
Hadoop负载均衡 均衡器(balancer)是一个Hadoop守护进程,它将块从忙碌的datanode移到相对空闲的datanode,从而重新分配块。同时坚持块副本放置策略,将副本分散到不同机架,以降低数据损坏率。它不断移动块,直到…
-
InfoBeat赋能移动应用,助推业务增长
随着计算机处理能力日益强大,大数据带来的价值成倍攀升。大数据优化资源配置,提高人们的决策能力,驱动着“信息社会”向“智能社会”过渡。利用大数据做好互联网产品的精细化运营,这种思路相信大家都是认可的,那具…
-
centos安装zeromq, jzmq
先安装各种所需的依赖包 # yum install gcc # yum install gcc-c++ libtool jzmq 是zeromq 的java客户端 下载地址 https://github.com/zeromq/jzmq/downloads
-
Hadoop1.x版本升级Hadoop2.x
引言 随着企业数据化和Hadoop的应用越加广泛,hadoop1.x的框架设计越来越无法满足人们对需求,Apache一直在对Hadoop1.x进行修改,最后推出了新一代的Hadoop2.x。从业界使用分布式系统的变化趋势和 hadoop 框架的长…
-
SparkStreaming消费kafka数据
概要:本例子为SparkStreaming消费kafka消息的例子,实现的功能是将数据实时的进行抽取、过滤、转换,然后存储到HDFS中。 实例代码 package com.fwmagic.test import com.alibaba.fastjson.{JSON, JSONException} i…