大数据
-
Hadoop中HDFS小文件产生场景及其处理方案
影响: 1、文件的元数据存储在namenode中,每个文件的元数据都差不多大,小文件过多会极大的占用namonode 的内存,制约集群的扩展。(主要影响) 2、在对小文件进行处理的时候,一个小文件对应一个maptask,一个map…
-
Hive调优技巧
1.Fetch抓取 set hive.fetch.task.conversion=more(默认) 1 Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。该属性设置为 more 以后,在全局查找、字段查找、limit 查找等都不走 MapReduc…
-
支付宝之所以牛逼的原因:来看内部架构剖析
支付宝系统架构概况大数据 典型处理默认大数据 资金处理平台大数据 财务会计大数据 支付清算大数据 核算中心大数据 交易大数据 柔性事务 支付宝的开源分布式消息中间件--Metamorphosis(MetaQ) Metamorphosis (MetaQ…
-
安装单机模式Hadoop-2.6.3(1)
jdk下载地址 http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 添加hadoop用户 [root@centos67 ~]# useradd hadoop [root@centos67 ~]#&n…
-
sqlserver实现树形结构递归查询(无限极分类)
SQL Server 2005开始,我们可以直接通过CTE来支持递归查询,CTE即公用表表达式 百度百科 公用表表达式(CTE),是一个在查询中定义的临时命名结果集将在from子句中使用它。每个CTE仅被定义一次(但在其作用域内可以…
-
flink 优秀文章集合
说明:为了避免博客被封,*代表c,s,d和n,请自行替换. 水印 https://blog.****.net/lmalds/article/details/52704170 2 python 操作 https://blog.****.net/qq_41577045/article/details/86694395
-
device-mapper 块级重删(dm dedup) <1> 序
一、序 研究背景linux device mapper deduplication target作为开源系统linux目前的块级重删技术,未来会被广泛关注。尤其是在全闪存all flash array要在未来大爆发的时代,越来越多的混合存储方案会被全闪存所替换…
-
kafka作为流式处理的上一层,为什么吞吐量那么大?
Kafka为什么速度快、吞吐量大 Kafka是大数据领域无处不在的消息中间件,目前广泛使用在企业内部的实时数据管道,并帮助企业构建自己的流计算应用程序。Kafka虽然是基于磁盘做的数据存储,但却具有高性能、高吞吐、…
-
SylixOS调试方法详解——综合案例分析
1. SylixOS调试方法介绍 SylixOS实现了一个功能强大的调试stub(桩),可在设备或模拟器上在线调试应用程序,RealEvo-IDE也提供配套的调试插件。目前RealEvo-IDE既支持自动推送调试、也支持传统的手动启动gdbserver…
-
Flume数据采集之常见集群配置案例
[TOC] 非集群配置 这种情况非集群配置方式,比较简单,可以直接参考我整理的《Flume笔记整理》,其基本结构图如下: Flume集群之多个Agent一个source 结构说明 结构图如下: 说明如下: 即可以把我们的Agent部署在…