区块链
-
python 多进程共享数据的读与写详解大数据
1. 父进程向子进程传参 1.1python通常的数据结构可以传给子进程读,但子进程写无效: from multiprocessing import Pool, Manager d…
-
评估目标之RMSE,MAP,NDCG详解大数据
今天终于得空写点最近看的东西。 最近在看排序算法lambadarank,先写下几种evaluation metrics 1. MSE MSE(mean square error, …
-
机器学习信仰之朴素贝叶斯法详解大数据
敲黑板,划重点 上大学那会,贝叶斯定理是用来求条件概率的;现在才知道,贝叶斯定理其实是在讲先验、似然与后验的故事。 贝叶斯定理是一种信仰。 1、频率学派与贝叶斯学派 频率学派认为,…
-
机器学习信仰之决策树详解大数据
1、决策树是一种基本的分类、回归算法 2、1986年ID3算法;1994年C4.5算法;1984年CART算法 3、决策树从根节点到一个叶节点表示一条路径,代表一串规则、条件。 4…
-
go 按行读取/写入详解大数据
参考:https://gist.github.com/tomcatzh/5d1d0d9a95cecba798d1 func readLines(path string) ([]st…
-
关于Spark 1.5 版本中Spark自己管理内存而不是由Java管理内存的解释详解大数据
1.Spark 1.5版本针对DataFrame引入的新的内存管理,防止由JVM管理导致频繁GC的现象,极大了提升了性能,具体Spark 1.5版本的更新内容见以下链接: http…
-
Spark-Core源码阅读详解大数据
吐血奉献,Spark-Core源码阅读,适合新手,详细请见链接: http://download.csdn.net/detail/wl044090432/9421721 目录结构为…
-
Spark1.4.0和hadoop联合部署的坑详解大数据
由于业务场景需求,需要通过spark从hdfs拉取数据进行40G的数据分析,按照官网搭建完spark的环境之后,就开始提交job运行了,大致的环境配置如下:4台服务器,每台服务器6…
-
利用Spark Rdd生成Hfile直接导入到Hbase详解大数据
针对大批量插入Hbase的场景,如果单条记录插入的时候效率比较低下,如果可以利用Rdd生成Hfile的话,然后利用Bulk Load导入Hfile的话,则会大大提升导入的速度,废话…
-
如何利用Spark提高批量插入Solr的效率详解大数据
有时候我们会碰到这样的场景:利用Spark批量插入数据。因为Spark相比MR编程更方便,更容易上手。因此接下来讲讲利用Spark批量插入数据时候的注意点。假设批量往SolrClo…