新闻是有分量的

解读阿里巴巴AI“发电厂”:打造通用平台 GPU加持AI推理应用提速

2018-09-30 10:03栏目:简讯

上周NVIDIA发布了业界最先进的AI推理平台–NVIDIA TensorRT超大规模推理平台,其采用基于突破性NVIDIA Turing架构的 NVIDIA Tesla T4 GPU,以及一整套完整的新推理软件,这些产品针对强大、高效的推理进行的优化备受业界瞩目,这套全新数据中心推理平台,为语音、视频、图像和推荐服务带了值得期待的推理加速。

null



随着智能手机、智能音箱、智能摄像头等智能终端爆发,以语音交互、人脸识别、图像识别、机器翻译等为代表的AI服务开始大量涌入我们的生活与工作中,AI在推理侧的应用也在爆发。

每天,大规模数据中心都会处理数以亿计的语音查询、翻译、图像、视频、推荐和社交媒体交互。所有这些应用的处理过程都需要在位于服务器上不同类型的神经网络进行。

null



所谓推理端是相对于训练端而言的,目前一项AI能力的打造大都需要拿大量数据来“喂”模型,来训练出一个可供使用的模型,然后将模型部署在服务器或者终端上,来做推理应用。

作为AI计算的领导者,NVIDIA也在不断推动适时推动为推理端的AI应用提供低时延、高性能的算力支持,保障AI服务的体验。

作为国内最大的电商平台以及云服务平台,阿里巴巴不但在AI应用的训练端大量使用GPU,近年来还将许多推理端AI能力构建在GPU之上。近期我们与阿里巴巴计算平台事业部机器学习平台PAI团队高级算法专家杨军进行深度沟通,看看阿里巴巴如何使用GPU构建AI全平台的超级火力“发电厂”。

null



阿里巴巴GPU部署国内前三

如果将一项AI应用比作一辆火车,那么服务器等计算平台就是“发电厂”提供能量,算法模型就是火车的“大脑”控制前进,模型框架、部署平台就是“轨道”,只有这三者协调配合,AI应用才能真正跑起来。

杨军所在的计算平台事业部扮演的是阿里巴巴AI“发电厂”的角色,他们搭建一个通用的算力平台,对不同的算法模型提供不同的算力,满足各项业务的发展。

智东西了解到,阿里巴巴计算平台事业部原本在阿里巴巴云业务下,后来阿里巴巴出于对该业务的重视,想在基础设施方面有更多的沉淀,就将其从阿里云独立出去成为一个独立事业部。

阿里巴巴计算平台的能力不但输出给阿里巴巴内部,也向外部的云上客户提供服务。我们了解到,该计算平台的能力首先服务于阿里巴巴内部,比如搜索、推荐、淘宝、安全部、广告之类的业务;另一方面,他们也会将能力在阿里云上输出产品,供长尾用户构建AI能力。

如果将阿里巴巴的计算平台比作一座“发电厂”,那么GPU就是高性能“燃料”,来支持AI应用的训练和推理。阿里巴巴从2015年开始采用NVIDIA的GPU搭建计算平台。杨军称,尽管搭建的起点不算太早,但阿里巴巴对GPU非常重视,投入也非常大,目前阿里巴巴GPU的采购总量在国内可排前三。

目前NVIDIA多个系列的GPU产品阿里巴巴都有使用,而在推理端,阿里巴巴主要使用Tesla P100、Tesla P4等GPU来做AI推理任务。

由于阿里巴巴计算平台面对不同的业务类型不同的算法模型,也要具备包容性与灵活性,能够根据不同的业务特点匹配所需的算力。这意味着平台必须要走通用化之路,阿里巴巴正在尝试通过编译器优化的方法进行解决。

杨军也谈道,部署计算平台最关注三个方面:第一,希望客户业务跑的足够快,更快的完成训练推理任务;第二,客户的资源使用效率更高,帮助客户节省资源;第三是透明性和智能化,客户只需要提交模型即可,剩下的由平台来完成,一号站娱乐平台,客户可以把更多精力聚焦在业务层面。

阿里巴巴下属的多个业务,都有着越来越好的用户体验,产品的创新速度也是层出不穷,在这背后就有着杨军所在的GPU计算平台的助力。在GPU的加持下,阿里巴巴计算平台支持着阿里巴巴旗下的安全内容审核、机器翻译等诸多业务AI推理应用都得以大幅提速。

null



通过编译器优化满足不同业务AI推理需求

在阿里巴巴通用算力平台中,面对阿里巴巴多元化的业务需求,它采用编译器优化的方法来满足不同业务对算力的需求。像图像识别、语音识别、机器翻译等不同任务在算力获取的细节上不同,阿里巴巴通过编译器优化的方法,将训练和推理任务变成一个编译优化任务,将高层次的语言描述变成一个底层可执行代码的过程。