跨平台的内存数据交换格式-Apache Arrow

帮
助
中
心

网站公告

新闻动态

域名注册

虚拟主机

企业邮箱

数据库

云服务器

备案指南

阿里云主机ECS

首页 » 帮助中心 » 云服务器 » 阿里云主机ECS

跨平台的内存数据交换格式-Apache Arrow

发布日期：2016-4-6 13:4:25

　　跨平台的内存数据交换格式-Apache Arrow

　 rrowApache Arrow是Apache基金会下的一个全新的开源项目，同时也是一个顶级项目。它的目的是作为一个跨平台的数据层，来加快阿里云大数据分析项目的运行速度。

　　用户在应用阿里云大数据分析时除了将Hadoop等大数据平台作为一个经济的存储与批处理平台之外也很看重分析系统的扩展性和性能。过去几年里，开源社区已经发布了很多工具来完善大数据分析的生态系统，这些工具涵盖了数据分析的各个层面，例如列式存储格式(Parquet/ORC)、内存计算层(Drill、Spark、Impala和Storm)与强大的API接口(Python和R语言)。Arrow是最新加入的一员，它则提供了一种跨平台跨应用的内存数据交换格式。

　　提高大数据分析性能的一个重要手段是对列式数据的设计与处理。列式数据处理借助向量计算与SIMD使我们可以充分挖掘硬件的潜力。Apache Drill这一大数据查询引擎在不论是硬盘中还是在内存中的数据都是以列的方式存在的，Arrow这个数据格式就是由Drill中Value Vector这一数据格式发展而来的。除了列式数据，Apache Arrow也支持关系型与动态数据集，这使它成了处理物联网等数据时的理想格式选择。

　　Apache Arrow为大数据生态系统带来了无穷的可能性。有Apache Arrow做为今后的标准数据交换格式，各个数据分析的系统与应用之间的交互性可以说是上了一个新的台阶。过去大部分的CPU周期都花在了数据的序列化与反序列化上，现在我们能够实现不同系统之间数据的无缝共享。这意味着用户在结合使用不同的系统时再也不用为数据格式多花心思了。

　　图1 Performance Advantage of Columnar In-Memory

　　图2 Advantages of a Common Data Layer

　　每个系统都有自己内部的内存格式

　　70-80%的CPU浪费在序列化和反序列化过程

　　类似功能在多个项目中实现，没有一个标准

　　图3

　　所有系统都使用同一个内存格式

　　避免了系统间通信的开销

　　项目间可以共享功能(比如Parquet-to-Arrow reader)

上一条: 大数据创业的九项准测或许能帮到你

下一条: Hadoop核心代码行数已170万+、贡献者800+

相关问题		热门问题
Docker在云容器技术领衔 Flocker 0.3.1 新特性 Apache Flume 1.5.2 发布发展中的 Docker 技术 OpenStack私有云DR的益处 Seafile 3.1.11 发布 Docker1.3改动简介 Seafile Client 3.1.10 发... 语音输入四强争霸 Apache Libcloud 0.16.0 ...		Windows Server 2012 防火墙... Linux下l2tp客户端xl2tpd安装配置... 阿里云ECS关于跨服务器快照/镜像的使用说明 Linux系统下测试UDP端口是否正常监听的办... 阿里云ECS通过安全组屏蔽/拦截/阻断特定IP... 如何解决ECS Windows提示显示设置无法... 如何解决ECS服务器误开启了防火墙导致远程连接... 阿里云数据库安全阿里云ECS通过安全组实现将不同账号同地域云服... ECS云服务器的自定义镜像FAQ

新手上路		支付方式	快速通道		服务与支持
域名常见问题	主机常见问题	在线支付	域名信息查询	备案信息查询	帮助中心
邮箱常见问题	云服务器问题	线下汇款	域名控制面板	主机控制面板	网络违法举报
数据库问题	备案问题		万网代备案系统		互联网不良信息举报

业务QQ： 11611616 673768899 673768855		联系电话： 023-61066666 66887777 89082222
离线联系： 13452888882 13452888883 13452888886		备案专线： 023-60887777 备案专员QQ：673768866
联系地址：重庆市九龙坡区石桥铺一城精英国际40层17号 Copyright © 重庆典名科技有限公司 023dns.com All Rights Reserved