CNCC 2016 | 南京大学黄宜华教授 50 张 PPT 剖析 Alluxio 及其应用

雷锋网(公众号：雷锋网)按：本文根据黄宜华在 CNCC 2016 大数据高峰论坛上所做的报告《基于内存的统一分布式存储系统 Alluxio 及其应用》编辑整理而来，在未改变原意的基础上略有删减。文末有福利。

黄宜华，博士，教授，博导，南京大学 PASA 大数据技术实验室负责人。主要研究领域为大数据并行处理、多核并行计算、云计算、Web信息挖掘集成、语义分析挖掘、中文信息处理、以及计算机应用。目前担任中国计算机学会大数据专家委员会委员、副秘书长，江苏省计算机学会大数据专家委员会主任，江苏省计算机学会云计算专业委员会副主任。

Alluxio 简介

Alluxio（之前名为 Tachyon）是世界上第一个以内存为中心的虚拟的分布式存储系统。它统一了数据访问的方式，为上层计算框架和底层存储系统构建了桥梁。应用只需要连接Alluxio即可访问存储在底层任意存储系统中的数据。此外，Alluxio的以内存为中心的架构使得数据的访问速度能比现有常规方案快几个数量级。

在大数据生态系统中，Alluxio 介于计算框架(如 Apache Spark，Apache MapReduce，Apache Flink)和现有的存储系统（如 Amazon S3，OpenStack Swift，GlusterFS，HDFS， Ceph，OSS）之间。 Alluxio 为大数据软件栈带来了显著的性能提升。用户可以以独立集群方式(如Amazon EC2)运行Alluxio，也可以从Apache Mesos或Apache YARN上启动Alluxio。

Alluxio 与 Hadoop是兼容的。这意味着已有的Spark和MapReduce程序可以不修改代码直接在 Alluxio上运行。Alluxio 是一个已在多家公司部署的开源项目(Apache License 2.0)。

Alluxio 是发展最快的开源大数据项目之一。自 2013 年 4 月开源以来，已有超过 100 个组织机构的 250 多贡献者参与到 Alluxio 的开发中。包括阿里巴巴, Alluxio, 百度, 卡内基梅隆大学，IBM，Intel, 南京大学, Red Hat，UC Berkeley和 Yahoo。Alluxio 处于伯克利数据分析栈(BDAS)的存储层，也是 Fedora 发行版的一部分。