雷锋网(公众号:雷锋网)按:本文根据黄宜华在 CNCC 2016 大数据高峰论坛上所做的报告《 基于内存的统一分布式存储系统 Alluxio 及其应用 》编辑整理而来,在未改变原意的基础上略有删减。文末有福利。
黄宜华, 博士, 教授, 博导,南京大学 PASA 大数据技术实验室负责人。 主要研究领域为大数据并行处理、多核并行计算、云计算、Web信息挖掘集成、语义分析挖掘、中文信息处理、以及计算机应用。目前担任中国计算机学会大数据专家委员会委员、副秘书长,江苏省计算机学会大数据专家委员会主任,江苏省计算机学会云计算专业委员会副主任。
Alluxio 简介
Alluxio(之前名为 Tachyon)是世界上第一个以内存为中心的虚拟的分布式存储系统。它统一了数据访问的方式,为上层计算框架和底层存储系统构建了桥梁。 应用只需要连接Alluxio即可访问存储在底层任意存储系统中的数据。此外,Alluxio的以内存为中心的架构使得数据的访问速度能比现有常规方案快几个数量级。
在大数据生态系统中,Alluxio 介于计算框架(如 Apache Spark,Apache MapReduce,Apache Flink)和现有的存储系统(如 Amazon S3,OpenStack Swift,GlusterFS,HDFS, Ceph,OSS)之间。 Alluxio 为大数据软件栈带来了显著的性能提升。用户可以以独立集群方式(如Amazon EC2)运行Alluxio,也可以从Apache Mesos或Apache YARN上启动Alluxio。
Alluxio 与 Hadoop是兼容的。这意味着已有的Spark和MapReduce程序可以不修改代码直接在 Alluxio上运行。Alluxio 是一个已在多家公司部署的开源项目(Apache License 2.0)。
Alluxio 是发展最快的开源大数据项目之一。自 2013 年 4 月开源以来,已有超过 100 个组织机构的 250 多贡献者参与到 Alluxio 的开发中。包括阿里巴巴, Alluxio, 百度, 卡内基梅隆大学,IBM,Intel, 南京大学, Red Hat,UC Berkeley和 Yahoo。Alluxio 处于伯克利数据分析栈(BDAS)的存储层,也是 Fedora 发行版的一部分。
系统框架与工作原理
| 系统架构
| 文件组织
| 读写行为
| 容错机制
重要特性与适用场景
| 文件系统接口
| 世系关系
| 键值存储库
| 分层存储
| 更多底层存储系统
| 统一命名空间
| 与计算框架相结合
| Web 界面
| 安全性适用场景
| 配置项设置
| 度量指标系统
实际应用案例介绍
| Barclays 银行
| 百度查询系统
| 去哪儿网大数据留处理系统
| 华泰证券行情数据回放系统
中文文档和国内镜像社区
福利:扫下方二维码,关注 AI 科技评论公众号,后台回复“Alluxio”得现场高清PPT。
雷锋网原创文章,未经授权禁止转载。详情见转载须知。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/61858.html