大数据

  • Hadoop中HDFS小文件产生场景及其处理方案

    影响: 1、文件的元数据存储在namenode中,每个文件的元数据都差不多大,小文件过多会极大的占用namonode 的内存,制约集群的扩展。(主要影响) 2、在对小文件进行处理的时候,一个小文件对应一个maptask,一个map…

    大数据 2021年11月16日
  • Hive调优技巧

    1.Fetch抓取 set hive.fetch.task.conversion=more(默认) 1 Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。该属性设置为 more 以后,在全局查找、字段查找、limit 查找等都不走 MapReduc…

    大数据 2021年11月16日
  • 支付宝之所以牛逼的原因:来看内部架构剖析

    支付宝系统架构概况大数据 典型处理默认大数据 资金处理平台大数据 财务会计大数据 支付清算大数据 核算中心大数据 交易大数据 柔性事务 支付宝的开源分布式消息中间件--Metamorphosis(MetaQ) Metamorphosis (MetaQ…

    大数据 2021年11月16日
  • 安装单机模式Hadoop-2.6.3(1)

      jdk下载地址 http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html   添加hadoop用户 [root@centos67 ~]# useradd hadoop [root@centos67 ~]#&n…

    大数据 2021年11月16日
  • sqlserver实现树形结构递归查询(无限极分类)

    SQL Server 2005开始,我们可以直接通过CTE来支持递归查询,CTE即公用表表达式 百度百科 公用表表达式(CTE),是一个在查询中定义的临时命名结果集将在from子句中使用它。每个CTE仅被定义一次(但在其作用域内可以…

    大数据 2021年11月16日
  • flink 优秀文章集合

    说明:为了避免博客被封,*代表c,s,d和n,请自行替换. 水印 https://blog.****.net/lmalds/article/details/52704170 2 python 操作 https://blog.****.net/qq_41577045/article/details/86694395

    大数据 2021年11月16日
  • device-mapper 块级重删(dm dedup) <1> 序

    一、序 研究背景linux device mapper deduplication target作为开源系统linux目前的块级重删技术,未来会被广泛关注。尤其是在全闪存all flash array要在未来大爆发的时代,越来越多的混合存储方案会被全闪存所替换…

    大数据 2021年11月16日
  • kafka作为流式处理的上一层,为什么吞吐量那么大?

    Kafka为什么速度快、吞吐量大 Kafka是大数据领域无处不在的消息中间件,目前广泛使用在企业内部的实时数据管道,并帮助企业构建自己的流计算应用程序。Kafka虽然是基于磁盘做的数据存储,但却具有高性能、高吞吐、…

    大数据 2021年11月16日
  • SylixOS调试方法详解——综合案例分析

    1. SylixOS调试方法介绍 SylixOS实现了一个功能强大的调试stub(桩),可在设备或模拟器上在线调试应用程序,RealEvo-IDE也提供配套的调试插件。目前RealEvo-IDE既支持自动推送调试、也支持传统的手动启动gdbserver…

    大数据 2021年11月16日
  • Flume数据采集之常见集群配置案例

    [TOC] 非集群配置 这种情况非集群配置方式,比较简单,可以直接参考我整理的《Flume笔记整理》,其基本结构图如下: Flume集群之多个Agent一个source 结构说明 结构图如下: 说明如下: 即可以把我们的Agent部署在…

    大数据 2021年11月16日