开源

  • 《从Lucene到Elasticsearch:全文检索实战》

          今天我给大家讲讲倒排索引。       索引是构成搜索引擎的核心技术之一,它在日常生活中是非常常见的,比如我看一本书的时候,我首先会看书的目录,通过目录可以快速定位到具体章节的页码,加快对内容的查询速…

    大数据 2021年11月15日
  • spark-yarn 模式 jar包优化

    在yarn模式下,会上传jar包到yarn来执行spark程序,如果每次都上传,很耗时间,而且如果是阿里云的机器,上传很慢,180m的jar要上传十几分钟,所以要提前上传到hdfs中去。 spark支持如下几个参数 spark.yarn.jars:…

    大数据 2021年11月15日
  • DMP用户画像系统(SparkGraphX SparkCore SparkSQL)

    DMP用户画像系统(SparkGraphX SparkCore SparkSQL)课程观看地址:http://www.xuetuwuyou.com/course/221课程出自学途无忧网:http://www.xuetuwuyou.com DMP系统    用户画像也称人物角色,是根据…

    大数据 2021年11月15日
  • Lintcode16 Permutations II solution 题解

    【题目描述】 Given a list of numbers with duplicate number in it. Find all unique permutations. 给出一个具有重复数字的列表,找出列表所有不同的排列。 【题目链接】 http://www.lintcode.com/en/problem/pe…

    大数据 2021年11月15日
  • jenkins环境搭建步骤

    1、下载jenkins.war包 2、在war包所在的目录按住shift键右击打开命令行窗口执行下面两条命令来启动jenkins: jar -jar jenkins.war java -Xms1024m -Xmx2048m  -XX:PermSize=512M  -…

    大数据 2021年11月15日
  • zookeeper部署

    ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分…

    大数据 2021年11月15日
  • Docker镜像构建的优化总结

    Docker镜像构建的优化总结 随着我们对docker镜像的持续使用,在此过程中如果不加以注意并且优化,镜像的体积会越来越多。很多时候我们在使用docker部署应用时,会发现镜像的体积至少有1G以上。镜像体积的增大,不单…

    大数据 2021年11月15日
  • Spark笔记整理(六):Spark高级排序与TopN问题揭密

    [TOC] 引入 前面进行过wordcount的单词统计例子,关键是,如何对统计的单词按照单词个数来进行排序? 如下: scala> val retRDD = sc.textFile("hdfs://ns1/hello").flatMap(_.split(" ")).map((_, 1)).reduceBy…

    大数据 2021年11月15日
  • WIn7下用Idea远程操作Spark

    WIn7下用Idea远程操作Spark main.scala org.apache.spark.SparkContext._ org.apache.spark.{SparkConfSparkContext} SogouResult {   (args:Array[]){     (args.length==)&nb…

    大数据 2021年11月15日
  • 谈谈对java的理解

    1、java一次编译,到处执行----跨平台 2、gc 3、jre和jdk 区别:     jre(java runtime environment)java运行环境,包含jvm的client,类库(rt.jar:常用的集合、io、math、lang等都在rt…

    大数据 2021年11月15日