开源

  • Webbrowser 代码收集

    1、禁止Webbrowes新窗口打开页面,强制在当前页面打开   方法:放两个webbrowser控件,错码如下;     procedure TForm1.WebBrowser1NewWindow2(Sender: TObject; var PpDisp:&n…

    大数据 2021年11月16日
  • 大数据服务之数据管理

    数据管理过程主要包括:数据转换、数据关联、数据丰富、数据操作以及数据保持。 数据转换就是将数据从一种形式变换为另一种形式,通过形式的变化,使得数据更便于分析利用。比如在数据采集阶段导入的原始数据,需要…

    大数据 2021年11月16日
  • lucene复杂数据类型存储

    Lucene以Field作为key-value存储单元,Field的value可以为String、int、long、double、float和byte[]存储,开发过程中往往需要存储复杂的数据类型,例如List、Map等。下面将会讲解如何将复杂的对象转换为单一的key-…

    大数据 2021年11月16日
  • spark通过combineByKey算子实现条件性聚合的方法

    实际开发过程中遇到了需要实现选择性聚合的场景,即对于某一个key对应的数据,将满足条件的记录进行聚合,不满足条件的则不进行聚合。 使用spark处理这种计算场景时,想到了使用combineByKey算子,先将输入数据中的…

    大数据 2021年11月16日
  • Logstash生成及安装离线插件

    由于公司服务器不能连接公网,导致在服务器上安装logstash插件时出现了些问题。 在此记录下离线安装logstash插件的解决方式,供大家参考。 查看Logstash已安装的插件列表 ./bin/logstash-plugin list 导出离线插件…

    大数据 2021年11月16日
  • 消息队列之kafka(消费语义)

    1. 消费语义的介绍    at last once:至少消费一次(对一条消息有可能多次消费,有可能会造成重复消费数据)     原因:Proudcer产生数据的时候,已经写入在broker中,但是由于broker的网…

    大数据 2021年11月16日
  • 大数据成神之路-Linux基础

    Linux命令 我是小白,我从来没玩过Linux,请点这里: https://user-gold-cdn.xitu.io/2019/2/24/1691e1dda7807059 推荐的一个Git仓库 我有些基础,推荐一个快速查询命令的手册,请点这里: https://github.com/jaywc…

    大数据 2021年11月16日
  • Hive SQL汇总

    创建数据库create database if not exists sopdmcomment 'this is test database'with dbproperties('creator'='gxw','date'='2014-11-12') --数据库键值对属性信息location '/my/preferred/directory'; 显示…

    大数据 2021年11月16日
  • kylin安装步骤和注意的点

    下载官方的tar包后,解压,配置KYLIN_HOME和HIVE_CONF(hive-site.xml所在的目录)配置conf/kylin.properties和tomcat/conf/server.xmlconf/kylin.properties根据自己需要去配置,主要配置下hive和hbase的相关参数…

    大数据 2021年11月16日
  • 持续集成、持续交付、持续部署简介

    持续集成、持续交付、持续部署简介  相信你一定听过持续集成、持续交付、持续部署这些名词。 持续集成 Continuous Integration 持续交付 Continuous Delivery 持续部署 Continuous Deployment 持续集成  …

    大数据 2021年11月16日