开源
-
如何建立大数据风控的框架
在金融风控领域,数据有五个属性,1、人口属性性别,年龄,电话号码、姓名、家庭住址,主要是为了怎么找到这个用户2、消费特征电商用户经常买什么,在什么时候买东西,每个月消费多少,可以间接成为信用评分比如有…
-
jenkins集成jmeter-----接口自动化
首先需要确认,jmeter.properties中,jmeter.save.saveservice.output_format=xml 安装xsltproc:下载xsltproc.zip,解压到非中文目录 ----xsltproc是一个快速的XSLT引擎,通过XSL层叠样式表把XML转化为HTML、PDF等…
-
Fitnesse使用系列一
一、简介 按标准说法Fitnesse是一个验收测试框架,先不用理会这些貌似“高大上”的名词。看看它是如何介绍自己的。在手册文档的首页,定义了四种说明:1.是一个软件开发合作工具;2.是一个软件测试工具;3.是一个wiki…
-
rdd没有reduceByKey的方法
写Spark代码的时候经常发现rdd没有reduceByKey的方法,这个发生在spark1.2及其以前对版本,因为rdd本身不存在reduceByKey的方法,需要隐式转换成PairRDDFunctions才能访问,因此需要引入Import org.apache.spark.Sp…
-
sparkSQL来完成对Hive的操作
接下来做的操作是:(这个操作,将程序打成jar包到集群中运行)(1)编写spark程序在线上的hive中创建表并导入数据(2)查询hive中的数据(3)将查询结果保存到MySQL中代码: object SparkSqlTest { def main(args:…
-
大数据时代,如何构建精准用户画像,直击精细化运营
移动互联网时代,精细化运营逐渐成为企业发展的重要竞争力,“用户画像”的概念也应运而生。用户画像是指,在大数据时代,企业通过对海量数据信息进行清洗、聚类、分析,将数据抽象成标签,再利用这些标签将用户形象…
-
MessagePack Jackson 数据大小
我们在使用 MessagePack 对 List 对象数据进行序列化的时候,发现序列化以后的二进制数组数据偏大的情况。 请注意,不是所有的 List 对象都会出现这种情况,这个根据你 List 对象中存储的内容有关。 有关本问题的测…
-
crontab环境变量问题
在crontab中运行脚本来查看hadoop相关信息,由于hadoop、java默认部署在/usr/local下面, 所以导致crontab执行时出现报错。具体与环境变量有关系,下文描述比较清楚。 ################ 下文出处: &nb…
-
最常用的四种大数据分析方法
本文主要讲述数据挖掘分析领域中,最常用的四种数据分析方法:描述型分析、诊断型分析、预测型分析和指令型分析。 当刚涉足数据挖掘分析领域的分析师被问及,数据挖掘分析人员最重要的能力是什么时,他们给出了五花…
-
JVM监控命令
JDK本身提供了很多方便的JVM性能调优监控工具,除了集成式的VisualVM和jConsole,还有jps,jmap,jstat,jstack,jhat等小工具。 1. jps(Java Virtual Machine Process Status Tool) jps -m -l 列出JVM中运行的…