开源
-
《从Lucene到Elasticsearch:全文检索实战》
今天我给大家讲讲倒排索引。 索引是构成搜索引擎的核心技术之一,它在日常生活中是非常常见的,比如我看一本书的时候,我首先会看书的目录,通过目录可以快速定位到具体章节的页码,加快对内容的查询速…
-
spark-yarn 模式 jar包优化
在yarn模式下,会上传jar包到yarn来执行spark程序,如果每次都上传,很耗时间,而且如果是阿里云的机器,上传很慢,180m的jar要上传十几分钟,所以要提前上传到hdfs中去。 spark支持如下几个参数 spark.yarn.jars:…
-
DMP用户画像系统(SparkGraphX SparkCore SparkSQL)
DMP用户画像系统(SparkGraphX SparkCore SparkSQL)课程观看地址:http://www.xuetuwuyou.com/course/221课程出自学途无忧网:http://www.xuetuwuyou.com DMP系统 用户画像也称人物角色,是根据…
-
Lintcode16 Permutations II solution 题解
【题目描述】 Given a list of numbers with duplicate number in it. Find all unique permutations. 给出一个具有重复数字的列表,找出列表所有不同的排列。 【题目链接】 http://www.lintcode.com/en/problem/pe…
-
jenkins环境搭建步骤
1、下载jenkins.war包 2、在war包所在的目录按住shift键右击打开命令行窗口执行下面两条命令来启动jenkins: jar -jar jenkins.war java -Xms1024m -Xmx2048m -XX:PermSize=512M -…
-
zookeeper部署
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分…
-
Docker镜像构建的优化总结
Docker镜像构建的优化总结 随着我们对docker镜像的持续使用,在此过程中如果不加以注意并且优化,镜像的体积会越来越多。很多时候我们在使用docker部署应用时,会发现镜像的体积至少有1G以上。镜像体积的增大,不单…
-
Spark笔记整理(六):Spark高级排序与TopN问题揭密
[TOC] 引入 前面进行过wordcount的单词统计例子,关键是,如何对统计的单词按照单词个数来进行排序? 如下: scala> val retRDD = sc.textFile("hdfs://ns1/hello").flatMap(_.split(" ")).map((_, 1)).reduceBy…
-
WIn7下用Idea远程操作Spark
WIn7下用Idea远程操作Spark main.scala org.apache.spark.SparkContext._ org.apache.spark.{SparkConfSparkContext} SogouResult { (args:Array[]){ (args.length==)&nb…
-
谈谈对java的理解
1、java一次编译,到处执行----跨平台 2、gc 3、jre和jdk 区别: jre(java runtime environment)java运行环境,包含jvm的client,类库(rt.jar:常用的集合、io、math、lang等都在rt…