开源 | 第792页

《从Lucene到Elasticsearch：全文检索实战》

今天我给大家讲讲倒排索引。索引是构成搜索引擎的核心技术之一，它在日常生活中是非常常见的，比如我看一本书的时候，我首先会看书的目录，通过目录可以快速定位到具体章节的页码，加快对内容的查询速…

大数据 2021年11月15日

0

spark-yarn 模式 jar包优化

在yarn模式下，会上传jar包到yarn来执行spark程序，如果每次都上传，很耗时间，而且如果是阿里云的机器，上传很慢，180m的jar要上传十几分钟，所以要提前上传到hdfs中去。 spark支持如下几个参数 spark.yarn.jars：…

大数据 2021年11月15日

0

DMP用户画像系统（SparkGraphX SparkCore SparkSQL）

DMP用户画像系统（SparkGraphX SparkCore SparkSQL）课程观看地址：http://www.xuetuwuyou.com/course/221课程出自学途无忧网：http://www.xuetuwuyou.com DMP系统用户画像也称人物角色，是根据…

大数据 2021年11月15日

0

Lintcode16 Permutations II solution 题解

【题目描述】 Given a list of numbers with duplicate number in it. Find all unique permutations. 给出一个具有重复数字的列表，找出列表所有不同的排列。【题目链接】 http://www.lintcode.com/en/problem/pe…

大数据 2021年11月15日

0

jenkins环境搭建步骤

1、下载jenkins.war包 2、在war包所在的目录按住shift键右击打开命令行窗口执行下面两条命令来启动jenkins： jar -jar jenkins.war java -Xms1024m -Xmx2048m -XX:PermSize=512M -…

大数据 2021年11月15日

0

zookeeper部署

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分…

大数据 2021年11月15日

0

Docker镜像构建的优化总结

Docker镜像构建的优化总结随着我们对docker镜像的持续使用，在此过程中如果不加以注意并且优化，镜像的体积会越来越多。很多时候我们在使用docker部署应用时，会发现镜像的体积至少有1G以上。镜像体积的增大，不单…

大数据 2021年11月15日

0

Spark笔记整理（六）：Spark高级排序与TopN问题揭密

[TOC] 引入前面进行过wordcount的单词统计例子，关键是，如何对统计的单词按照单词个数来进行排序？如下： scala> val retRDD = sc.textFile("hdfs://ns1/hello").flatMap(_.split(" ")).map((_, 1)).reduceBy…

大数据 2021年11月15日

0

WIn7下用Idea远程操作Spark

WIn7下用Idea远程操作Spark main.scala org.apache.spark.SparkContext._ org.apache.spark.{SparkConfSparkContext} SogouResult { (args:Array[]){ (args.length==)&nb…

大数据 2021年11月15日

0

谈谈对java的理解

1、java一次编译，到处执行----跨平台 2、gc 3、jre和jdk 区别： jre（java runtime environment）java运行环境，包含jvm的client，类库（rt.jar:常用的集合、io、math、lang等都在rt…

大数据 2021年11月15日

0