>科技>>正文

MaxCompute助力OSS支持EB级计算力

原标题:MaxCompute助力OSS支持EB级计算力

一、MaxCompute是什么?

你的OSS数据是否作堆积在一旁沉睡已久,存储成本变为企业负担?你是否想唤醒沉睡的数据,驱动你的业务前行?MaxCompute可以帮助你高效且低成本的解决这些问题,通过对海量数据进行分析和计算来实现勾勒用户画像、提升营销转化、挖掘产品优化方向、预测业务发展等丰富的业务场景。

MaxCompute是一项提供快速、完全托管的EB级数据仓库解决方案的大数据计算服务,可以高效并经济的分析处理海量数据。作为阿里云大数据旗舰产品,MaxCompute的EB级别性能处理达到了全球领先性,被Forrester评为全球云端数据仓库领导者。同时,MaxCompute也是阿里巴巴内部大数据旗舰平台,阿里巴巴近99%的数据存储以及95%的计算能力都在这个平台上产生。

最近MaxCompute重磅推出了一项重要特性:OSS外表查询功能。该功能可以帮助您直接对OSS中的海量文件进行查询,而不必将数据加载到MaxCompute 表中,既节约了数据搬迁的时间和人力,也节省了多地存储的成本。除此之外,MaxCompute外表查询功能还拥有如下的优势:

1、MaxCompute是一个无服务器的分布式计算架构,无需用户再额外维护和管理服务器基础设施,能方便及时的为OSS用户提供临时按需的查询服务,从而大大帮助企业节省成本。目前该功能处于公测阶段,免费使用;

2、支持处理OSS上开源格式的结构化文件,包括:Avro、CSV、ORC、Parquet、RCFile、RegexSerDe、SequenceFile和TextFile,同时支持gzip压缩格式;

3、提供灵活的用户自定义代码的处理框架,用来支持处理OSS上非结构化文件,用户可以自行编写代码直接对OSS上的数据进行处理和计算。比如对OSS上的视频,图像,音频,基因,气象等数据进行特征提取和分析,可以支持丰富的第三方音视频处理库;

二、客户案例

1、华大基因

基因技术从实验室逐渐进入生活场景,数据体量爆发式增长,远超出传统计算能力所能支持的范围。基于这样的背景,华大选择了MaxCompute。在百万人基因组项目中,对人群结构的分析,oss存放了大量的fastq文件,传统计算方式需3-5天,且需要将数据同步到数据仓库,现在通过外表功能,MaxCompute可使整个分析在1小时内完成,极大加速了数据吞吐和交付生产效率。

2、天弘基金

天弘基金旗下的余额宝,是中国规模最大的货币基金。除理财功能外,余额宝还是移动互联网时代的现金管理工具。余额宝每天有大量的金融数据交换文件存放在oss上,需要进行超大文本文件的结构化分析,之前是把oss文件先下载到本地,然后再上传到MaxCompute,链路长且效率不高。现在oss上的大文件可以直接用外部表的方式加载到MaxCompute做分析,整个链路的效率得到了大幅提升。

三、如何使用MaxCompute?

下面我们通过两个简单的示例,介绍如何通过MaxCompute外表功能实现对OSS数据的分析和处理。

场景一:物联网采集数据分析

Step1:准备工作

1、开通OSS 、MaxCompute服务

您可以通过官网分别开通OSS、MaxCompute服务,并创建OSS bucket、MaxCompute Project。

2、采集数据到OSS

您可以使用任何数据集来执行测试,以验证我们在这篇文章中概述的最佳实践。

本文准备一批 CSV 数据存在 OSS 上,endpoint 为oss-cn-beijing-internal.aliyuncs.com,bucket 为oss-odps-test,数据文件的存放路径为/demo/vehicle.csv。

3、授权MaxCompute访问OSS

MaxCompute需要直接访问OSS的数据,前提需要将OSS的数据相关权限赋给MaxCompute的访问账号,可以直接登录阿里云账号后,点击此处完成一键授权。

Step2:通过MaxCompute创建外部表

创建外部表,语句如下:

Step3:通过MaxCompute查询外部表

外部表创建成功后,便可如同普通表一样使用这个外部表。假设/demo/vehicle.csv数据如下:

执行如下 SQL 语句:

输出结果如下:

关于更多详细的OSS外表使用方法,请参考官方文档

https://help.aliyun.com/document_detail/54518.html

场景二:阿里云产品消费账单分析

Step1:准备工作

完成案例1中准备工作1、3步骤。

Step2:通过费用中心同步账单数据到OSS

打开费用中心->消费记录->存储到OSS,输入oss bucket,此示例为oms-yl

,服务开通后,每天会将增量的实例消费明细数据生成文件同步存储到您的OSS指定的bucket中。

Step3:通过MaxCompute注册账单处理类

1、点击这里https://account.aliyun.com/login/login.htm 下载,odps-udf-example-0.30.0-SNAPSHOT-jar-with-dependencies.jar

2、将自定义代码编译打包,并上传到 MaxCompute。

add jar odps-udf-example-0.30.0-SNAPSHOT-jar-with-dependencies.jar

Step4:通过MaxCompute创建外部表

示例:创建5月4日的账单消费表

Step5:通过MaxCompute查询外部表

查询示例:查询MaxCompute按量存储消费账单

四、总结

通过上述示例,将沉睡在OSS中的非结构化数据激活,通过MaxCompute把海量数据分析工作效率提升至分钟级,帮助客户更高效、更低成本的挖掘海量数据价值。

本文作者:隐林

本文为云栖社区原创内容,未经允许不得转载。 返回搜狐,查看更多

责任编辑:

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()
投诉
免费获取
今日推荐