《深度学习500问》第十五章+异构计算，+GPU和框架选型指南

我的文库

首页大学学科资料人工智能《深度学习500问》第十五章+异构计算，+GPU和框架选型指南

党建飞

院长

文档

180

关注

好评

 关注

 主页

PDF

《深度学习500问》第十五章+异构计算，+GPU和框架选型指南

 阅读 632  下载 0  大小 1.39M  总页数 0 页 2024-12-16 分享

价格：¥ 10.00

下载文档加入VIP

文档评论 收藏文档 违规举报 用手机查看 分享赚 ¥0.30

热门文档

2025-04-11 16:29:44 Android移动应用基础教程第三版课后习题答案
2025-04-07 14:39:05 绩效域的内容
2024-12-16 09:02:46 《深度学习500问》第一章+数学基础
2025-04-11 15:32:03 江西省六校2025届高三下学期3月第二次联考试题政治
2024-12-15 02:29:02 计算机网络（第八版）（谢希仁）答案
2024-12-28 10:28:42 第02章人体比例和尺寸
2025-04-11 15:32:03 江西省六校2025届高三下学期3月第二次联考试题生物
2024-12-15 02:33:39 六级阅读译文2022.12-2023.12
2024-12-28 10:28:42 第05章产品操纵装置
2025-01-12 23:31:50 Python背记手册
2025-03-18 17:38:21 大学生《形势与政策》课程论文（1800字） (3)
2025-01-12 23:38:28 算法设计与分析习题解答（第4版）

下载文档

/ 0

 全屏查看

《深度学习500问》第十五章+异构计算，+GPU和框架选型指南



还有 0 页未读，您可以继续阅读或下载文档

下载文档继续在线阅读

下载提示文本预览常见问题

1、本文档共计 0 页，下载后文档不带水印，支持完整阅读内容或进行编辑。
2、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
4、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

5/5/2020第十五章异构计算，GPU和框架选型指南·第十五章异构计算，GPU和框架选型指南015.1什么是异构计算？o15.2什么是GPU?o15.3GPU架构简介■15.3.1如何通俗理解GPU的架构？■15.3.2CUDA核心是什么？■15.3.3为什么要使用GPU?■15.3.4深度学习中的GPU应用■15.3.5新图灵架构里的tensor core对深度学习有什么作用？o15.4CUDA框架■15.4.1做CUDA编程难不难？■15.4.2 cuDNNo15.5GPU硬件环境配置推荐■15.5.1GPU主要性能指标■15.5.2购买建议。15.6软件环境搭建■15.6.1操作系统选择？■15.6.2常用基础软件安装？·15.6.3本机安装还是使用docker?■15.6.4GPU驱动问题。15.7框架选择■15.7.1主流框架比较■15.7.2框架详细信息·15.7.3哪些框架对于部署环境友好？·15.7.4移动平台的框架如何选择？■15.8.1多GPU环境的配置■15.8.2是不是可以分布式训练？·15.8.3可以在SPARK环境里训练或者部署模型吗？■15.8.4怎么进一步优化性能？■15.8.5TPU和GPU的区别？■15.8.6未来量子计算对于深度学习等A1技术的影响？o15.1GPU购买指南■15.1.1如何选择GPU■15.1.2GPU的主要性能指标·15.1.3整机配置■15.14小结。15.2框架选型·15.2.1常用框架简介o15.3模型部署。相关文献第十五章异构计算，GPU和框架选型指南深度学习训练和推理的过程中，会涉及到大量的向量vector),矩阵matrix)和张量(tensor)操作，通常需要大量的浮点计算，包括高精度（在训练的时候）和低精度（在推理和部署的时候）。le://home/shishuai/Desktop/第十五章异构运算、GPU及框架选型.html1/1655/2020第十五章异构计算，GPU和框架选型指南GPU,作为一种通用可编程的加速器，最初设计是用来进行图形处理和渲染功能，但是从2007年开始，英伟达(NVIDIA)公司提出了第一个可编程通用计算平台(GPU),同时提出了CUDA框架，从此开后了GPU用于通用计算的新纪元。此后，不计其数的科研人员和开发者，对各种不同类型的算法用CUDA进行（部分）改写，从而达到几倍到数百倍的加速效果。尤其是在机器学习，特别是深度学习的浪潮来临后，GPU加速已经是各类工具实现的基本底层构架之一。本章里，会简单介绍GPU的基本架构，性能指标，框架选择等等和深度学习相关的内容。15.1什么是异构计算？异构计算是基于一个更加朴素的概念，“异构现象“，也就是不同计算平台之间，由于硬件结构(包括计算核心和内存)，指合集和底层软件实现等方面的不同而有着不同的特性。异构计算就是使用结合了两个或者多个不同的计算平台，并进行协同运算。比如，比较常见的，在深度学习和机器学习中已经比较成熟的架构：CPU和GPU的异构计算；此外还有比较新的Google推出的协处理器(TPU),根据目的而定制的ASIC,可编程的FPGA等也都是现在在异构计算中使用比较多的协处理器。而，本章中会着重介绍和深度学习共同繁荣的图形加算器，也就是常说的GPU。15.2什么是GPU?GPU,就如名字所包含的内容，原本开发的目的是为了进行计算机图形渲染，而减少对于CPU的负载。由于图像的原始特性，也就是像素间的独立性，所以GPU在设计的时候就遵从了“单指合流多数据流(SMD)“架构，使得同一个指合（比如图像的某种变换），可以同时在多一个像素点上进行计算，从而得到比较大的吞吐量，能使得计算机可以实时渲染比较复杂的2D/3D场景。在最初的应用场景里，GPU并不是作为一种通用计算平台出现的，直到2007年左右，一家伟大的公司将GPU带到通用计算的世界里，使得其可以在相对比较友好的编程环境(CUDA/OpenCL).里加速通用程序成了可能。从此之后，GPU通用计算，也就是GPU就成了学界和工业界都频繁使用的技术，在深度学习爆发的年代里，GPU成了推动这股浪潮非常重要的力量。15.3GPU架构简介GPU,图形显示芯片作为不同于CPU的设计逻辑和应用场景，有着非常不同的架构，本部分将简单介绍GPU究竟是如何架构，其中的计算核心有哪些特性。15.3.1如何通俗理解GPU的架构？首先，下图简单地展示了几个GPU不同于CPU的特性：·计算核心：图中的CPU,i7-5960,Intel的第五代Broadwell架构，其中包括了8个CPU核心（支持16线程)，也就是理论上可以有16个不同的运算同时进行。除了8个核心计算单元，大部分的芯片面积是被3级缓存，内存和控制电路占据了。同样的，来自Ividia的GTX980GPU,在差不多的芯片面积上，大部分是计算单元，16个SM,也就是流处理单元，每个流处理单元中包含着128个CUDA计算核心，所以总共来说，有2048个GPU运算单元，相应地这颗GPU理论上可以在一个时钟周期内可以进行2048次单精度运算。le://home/shishuai/Desktop/第十五章异构运算、GPU及框架选型.html5/5/2020第十五章异构计算，GPU和框架选型指南17.7mm19.6mmL2 cache,memory controllerQueue,uncore,I/OcorecorecorecoresharedNetwork on ChipL3 cachecorecorecorecoreMemory ControllerPCle interfaceIntel Core i7-5960XNVIDIA GTX 980·计算核心频率：时钟频率，代表每一秒中内能进行同步脉冲次数，也是从一个侧面反映一个计算元件的工作速度。下图中对比了个别早期产品，比如Intel的x5650和几款Ividia的GPU。可以看出核心频率而言，CPU要远高于GPU。对于CPU而言，在不考虑能源消耗和制程工艺限制的情况下，追求更高的主频。但，在GPU的设计中，采用了多核心设计，即使是提高一些频率，其实对于总体性能影像不会特别大。当然，其中还有能耗方面的考虑，避免发热过高，也进行了权衡。还有一个可能的原因是，在一个流处理器中的每个核心(CUDA核心)的运行共享非常有限的缓存和寄存器，由于共享内存也是有性能极限的，所以即使每个GPU核心频率提高，如果被缓存等拖累也是无法展现出高性能的。CPUIntel Xeon X5650ArchitectureX86Clock Speed(MHz)2670Total Core6(12 threads）Perforamnce Peak(GFLOPs)124.832 KBL2 Cache256KBL3 Cache12 MBPeak Performance Per Watt(GFLOPs/Watt1.31MSRP(when released)GPUNVIDIA Telsa M2070 NVIDIA Telsa K20NVIDIA GTX 970ArchitectureFermiKeplerMaxwellClock Speed(MHz)11507061050Total Cores448(32*16SMs)2496(192*12SMs)1664(128*13)Performance Peak(GFLOPs)128835243494Peak Performance Per Watt5.715.724.1MSRP (when released)Register3276832-bit65535*32-bitShared Memory16KB/48KB16KB/48KB96KBCache Size16KB/48KB16KB/48KB24KBL2 Cache768KB1536KB1792KB·内存架构：GPU的多层内存架构包括全局内存（也就是通常意义上大部分比较关注的内存，在若干到16GB之间，截至到当前最新)，2级缓存，和芯片上的存储（包括寄存器，和1级缓存共用的共享内存，只读/纹理缓存和常量缓存)。通常来说，最高速的共享内存/缓存和寄存器都是非常有限的，比如在Teslat的K20中，只有48K的缓存可以作为共享内存或le://home/shishuai/Desktop/第十五章异构运算、GPU及框架选型.html3/16

文档评分

请如实的对该文档进行评分

0 分

发表评论

提交评论