米乐app_大规模AI智能计算的算力背景和挑战-手机评测

在机器学习领域深度神经网络的突破进展,促进社会经济生活,进入了智能计算时代,力量的需求表现出爆炸性增长。

本文摘要:在机器学习领域深度神经网络的突破进展,促进社会经济生活,进入了智能计算时代,力量的需求表现出爆炸性增长。

米乐app

在机器学习领域深度神经网络的突破进展,促进社会经济生活,进入了智能计算时代,力量的需求表现出爆炸性增长。然而,智能计算服务的计算模型和通信模型与大数据处理/高性能计算服务具有显着差异,传统的基础架构不能为高速智能计算服务提供有效的力保护。

因此,AI群集架构设计需要将智能计算业务的特性结合起来,从基础设施到企业算法实现智能集成。阿里巴巴的EFLOPS AI计算集群硬件设计,在阿里巴巴孵化了丰富和多样化的商业实践,也配备了高效率。目前,人工智能渗透了许多传统产业,如教育,运输,能源和气象,并已广泛用于互联网。

米乐app

以淘宝为例,产品搜索,智能客户服务,个性化推荐等。支持AI所代表的智能计算,完全涵盖了典型的人工智能应用,如视觉,自然语言处理和点击率估计(点击率 ,CTR)。随着在图像语音识别领域的神经网络的成功应用,基于这的深度学习算法也是迅速发展的。

为了实现更好的识别准确性,神经网络和相关培训数据集的模型急剧增长,复杂的大型模型培训的时间也开始测量“周”甚至“月”单位,阿里巴巴的许多艾美公司 模型开始进入大型型号。例如,Tapan增加培训的数据集通常是2亿图片,使用Yingda Volta 100 GPU(峰值Tensorcore,Force 112 Tflops)需要一周; 虽然从划痕训练开始到10亿图片,但完成1.5个月才能完成,这种训练速度远远不必要快速迭代业务。为了缩短培训时间,构建一个分布式的AI训练集群,实现系统性能的横向扩展成为不可避免的选择,谷歌的TPU群集是类似的系统。由于不同的计算模型和沟通模型的深度学习和大型数据/高性能服务,传统的集群架构将面临严重的通信瓶颈,从而达到系统可扩展性的急剧下降。

米乐app

传统的大数据处理服务,如Hadoop任务,其小组的强烈独立性,以及流媒体的处理流程或单向视图。整体系统呈现磁通量计算特征,即单位时间完成的任务数是一个重要指标。

AI服务是一种高性能的计算负载。下一个计算任务是基于最后一个计算完成。因此,其重要指标是单项任务的完成时间,需要最终的计算性能,因此高性能加速器(如GPU)广泛用于AI系统。

加速器的大小对通信模型使用新的挑战,传统的通信模式从原始CPU通信切换到CPU和加速器。如果您仍然使用原始的CPU中心通信架构,则迫使它引入复杂的通信层次结构和数据副本,从而导致极低的通信效率。随着加速器性能的不断提高,计算兼延始终不断缩短,通信的瓶颈问题更加浮雕,系统性能的线性膨胀性能受到极大的限制。因此,力永远不是一个简单的计算芯片堆栈,而是通过服务器边界突破计算,网络和存储集群比例的结果,并且最好的协作设计依赖于全面了解AI的实际负载特性。

米乐app

真实的AI计算任务包含多个链接,例如数据集,模型计算,梯度同步等,综合地涉及数据IO,通用/异种,网络通信和集群系统的其他组件。实际上,AI服务量的运营效率仅限于通信和数据IO性能,而不是计算的,因此异构计算组件性能的性能并不很好地帮助系统的整体性能。有必要全面提高AI业务的效率,首先需要足够了解AI业务,并协调硬件级平衡系统中的软件系统/ IO /通信的性能。

充分发挥电力资源的效率。

本文关键词:米乐app

本文来源:米乐app-www.gtgds.com