作者：18级李嘉琦（转）

摘要

近日谷歌在其最近发布的论文中提出了新一代的NLP预训练模型T5，其整个模型的参数数量达到了惊人的 110 亿，再次刷新 Glue 榜单。从目前的情况来看，从OPEN AI的GPT-2到谷歌的XLNET、ALBERT以及百度的ERNIE，人工智能的模型迭代速度越来越快，但是模型的参数规模与训练成本也随之水涨船高，平均刷榜模型的训练成本都高达数十万人民币之巨。甚至谷歌的科学家在T5的论文指出：“越大的模型往往表现更好。这表现扩大规模可能仍然是实现更好性能的方式。“而一般的创业公司如果没有雄厚的资金实力是不可能搭建这种级别的AI训练平台。不过这也从另一个角度推进了AI与云计算的结合，只有将 AI云化才能降低门槛，促进行业创新发展。

AI云计算化实际与全场景全栈AI是同一概念，只能掌握全链条的AI场景才能真正做好AI云。不过全栈AI是涉及由芯片到训练集群再到云平台的全方位角力，真正实践起来困难重重，盘点一下目前世界上只有谷歌和华为能做到全栈AI的云平台。

AI芯片

昇腾910横空出世：我们知道之前人工智能方面主要依赖英伟达的GPU来进行模型的推理与训练，但是在今年的8月23日，华为正式发布了 “算力最强”的AI处理器昇腾910芯片，性能完全碾压了谷歌的V3以及英伟达的T100等AI芯片，一举打破了英伟达的垄断。

昇腾910芯片为何这么强：昇腾910半精度 (FP16)算力达到256 Tera-FLOPS，而对比竞品谷歌的V3只有90T，英伟达T100也只有128T。由于深度学习过程中计算核心与内存的交互带宽是最大瓶颈，所以昇腾910对此进行了专门的优化，其最大的亮点是使用自研的达芬奇架构，其核心的3D Cube、Vector向量计算单元、Scalar标量计算单元等组成，3D Cube针对矩阵运算做加速，大幅提升单位功耗下的AI算力，每个AI Core可以在一个时钟周期内实现4096个MAC操作。同时，Buffer L0A、L0B、L0C则用于存储输入矩阵和输出矩阵数据，负责向Cube计算单元输送数据和存放计算结果。可谓专为AI而生，能够帮助企业用更低的成本获取高性能算力，加速业务创新。下面这个是上海天文台的案例视频：

https://v.qq.com/x/page/h0927u0z7kb.html

AI训练集群

昇腾910发布三周后，华为在2019年全连接大会上，Atlas 900 AI训练群再次强势来袭。Atlas 900 AI集群基于昇腾910 AI处理器搭建，通过华为通信库和作业调度平台，整合HCCS、 PCIe 4.0和100G RoCE三种高速接口，充分释放昇腾910 AI处理器的强大性能。

Atlas900在20万星星里找到一颗有类似特征的星体只需要10秒，而在之前这个任务是需要科学家半年的时间才能完成。在实地测试当中，Atlas 900速度比处于第二位的平台快了五分之一，华为副董事长胡厚崑的话说“这就好比是在一场短跑里，第1名跑完了全程，然后上了个厕所再回来时第二名才终于气喘吁吁的到达。“

AI训练框架

目前主流的AI训练框架Tensor Flow刚刚推出了2.0版本，目前Tensor Flow已经渐成行业标准，各AI顶会的论文基本要求使用Tensor Flow编写代码。其霸主地位短期内很难撼动，不过国内厂商的AI框架也取得了不少突破性的进展，比如百度就在2016年开源了其深度学习计算框架飞浆平台，笔者亲身体验飞浆平台易用性和可移植性都很不错。飞浆集成了深度学习核心框架、基础模型库、端到端开发套件、工具组件和服务平台于一体，技术并不落后。飞桨已被应用在国内多个重要的智能场景，发挥了其应用有的价值。

华也计划在明年开源其全场景AI计算框架MindSpore。据目前华为发布的消息称。MindSpore适用的布署场景包括端、边缘和云，通过实现AI算法即代码，使开发态变得更加友好，相比其他框架，用MindSpore可降低核心代码量20%，开发门槛大大降低，效率整体提升50%以上。不过MindSpore目前尚未开源，笔者也没有亲身体验过MindSpore人实际开发过程，不过可以肯定华为在这方面也不会落后。

AI云平台

我们上文也曾经介绍过AI云平台实际是AI全场景的最终体现，目前主流的IT厂商如亚马逊的AWS、微软的AZURE都提供较强的AI云算力支持。不过的昇腾910、MindSpore以及Atlas900共同加持之下，华为的Model Arts与老牌云厂商也是完全不遑多让。

今年9月23日华为ModelArts2.0正式对外发布，其理念是打造一站式的开发平台，支撑用户从数据到应用的全流程开发过程，包含数据处理、模型训练、模型管理、部署等操作，并且提供AI市场功能，能够在市场内与其他开发者分享模型、API和数据集。

在华为云上（https://www.huaweicloud.com/product/modelarts.html）完成注册后，就可以免费得到10小时的GPU训练时长，免费体验在线Notebook的开发环境，笔者亲身使用的感受是ModelArts是一个相当开放的平台，自带有华为的深度学习框架moxing-framework，但是不限制用户使用其它深度学习框架进行训练。

ModelArts主要优势就是开放，并且预置多种模型，而且支持零代码开发，简单操作训练出自己的模型。用户完全可以不写一行代码，完成如车辆识别的模型训练，可以说上手体验相当不错。

后记

AI云是AI全栈的核心，是AI全场景的重要一环。计算力是所有AI应用的基础。所以全栈全场景AI可以更高的性能和更低的成本的AI算力赋能更多的企业。

AI产业横跨电商、金融、物流、云计算、大数据、全球化等场景，只有咱们国内厂商跟随全场景云AI平台的趋势，才能释放出AI全部的潜能，产生规模效应。

阅读原文：
https://blog.csdn.net/BEYONDMA/article/details/102986125