热门文档
- 2025-04-11 16:29:44 Android移动应用基础教程第三版课后习题答案
- 2025-04-07 14:39:05 绩效域的内容
- 2024-12-16 09:02:46 《深度学习500问》第一章+数学基础
- 2025-04-11 15:32:03 江西省六校2025届高三下学期3月第二次联考试题 政治
- 2024-12-15 02:29:02 计算机网络(第八版)(谢希仁)答案
- 2024-12-28 10:28:42 第02章 人体比例和尺寸
- 2025-04-11 15:32:03 江西省六校2025届高三下学期3月第二次联考试题 生物
- 2024-12-15 02:33:39 六级阅读译文2022.12-2023.12
- 2024-12-28 10:28:42 第05章 产品操纵装置
- 2025-01-12 23:31:50 Python背记手册
- 2025-03-18 17:38:21 大学生《形势与政策》课程论文(1800字) (3)
- 2025-01-12 23:38:28 算法设计与分析习题解答(第4版)

1、本文档共计 0 页,下载后文档不带水印,支持完整阅读内容或进行编辑。
2、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
4、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。
2、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
4、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。
55/2020第十入章后端架构选型及应用场景·第十入章后端架构选型及应用场景。18.1为什么需要分布式计算?。18.2目前有哪些深度学习分布式计算框架?■18.2.1 PaddlePaddle18.2.2 Deeplearning4j■18.2.3 Mahout■18.2.5Ray■18.2.6 Spark stream■18.2.7 Horovod■18.2.8 BigDL18.2.10 TensorFlowOnSpark。18.3如何进行实时计算?■18.3.1什么是实时流计算?■18.3.2实时流计算过程。18.4如何进行离线计算?■18.4.1数据采集·18.4.2数据预处理■18.4.3数据建模■18.4.4ETL■18.4.5数据导出■18.4.6工作流调度。18.5如何设计一个人机交互系统?■18.5.1什么是人机交互系统?·18.5.2如何设计人机交互系统的问答引擎算法架构?■18.5.3如何处理长难句?·18.5.4如何纠错?■18.5.5什么是指代消解?如何指代消解?·18.5.6如何做语义匹配?■18.5.7如何在海量的向量中查找相似的TopN向量?■18.5.8什么是话术澄清?·18.5.9如何对结果进行排序打分?■18.5.10如何评估人机交互系统的效果?。18.6如何设计个性化推荐系统?·18.6.1什么是个性化推荐系统?·18.6.2如何设计个性化推荐系统的推荐引擎架构?■18.6.3召回模块■18.6.4排序模块■18.6.5离线训练·18.6.6用户画像■18.6.7GBDT粗排■18.6.8在线FM精排■18.6.9算法介绍■18.6.10如何评价个性化推荐系统的效果?■18.6.11个性化推荐系统案例分析le://home/shishuai/Deskto p/第十入章后端架构选型及应用场景.html1/605/5/2020第十入章后端架构选型及应用场景o18.7参考文献第十入章后端架构选型及应用场景Markdown Revision 1;Date:2018/11/11Editor:梁志成Contact:superzhicheng@foxmail.com18.1为什么需要分布式计算?在这个数据爆炸的时代,产生的数据量不断地在攀升,从GB,TB,PB,ZB.挖掘其中数据的价值也是企业在不断地追求的终极目标。但是要想对海量的数据进行挖掘,首先要考虑的就是海量数据的存储问题,比如Tb量级的数据。谈到数据的存储,则不得不说的是磁盘的数据读写速度问题。早在上个世纪90年代初期,普通硬盘的可以存储的容量大概是1G左右,硬盘的读取速度大概为4.4MB/s.读取一张硬盘大概需要5分钟时间,但是如今硬盘的容量都在1TB左右了,相比扩展了近千倍。但是硬盘的读取速度大概是100MB/5。读完一个硬盘所需要的时间大概是2.5个小时。所以如果是基于TB级别的数据进行分析的话,光硬盘读取完数据都要好几天了,更谈不上计算分析了。那么该如何处理大数据的存储,计算分析呢?一个很简单的减少数据读写时间的方法就是同时从多个硬盘上读写数据,比如,如果我们有100个硬盘,每个硬盘存储1%的数据,并行读取,那么不到两分钟就可以完成之前需要2.5小时的数据读写任务了。这就是大数据中的分布式存储的模型。当然实现分布式存储还需要解决很多问题,比如硬件故障的问题,使用多台主机进行分布式存储时,若主机故障,会出现数据丢失的问题,所以有了副本机制:系统中保存数据的副本。一旦有系统发生故障,就可以使用另外的副本进行替换(著名的RAD冗余磁盘阵列就是按这个原理实现的)。其次比如一个很大的文件如何进行拆分存储,读取拆分以后的文件如何进行校验都是要考虑的问题。比如我们使用Hadoop中的HDFS也面临这个问题,只是框架给我们实现了这些问题的解决办法,开发中开发者不用考虑这些问题,底层框架已经实现了封装。同样假如有一个10TB的文件,我们要统计其中某个关键字的出现次数,传统的做法是漏历整个文件,然后统计出关键字的出现次数,这样效率会特别特别低。基于分布式存储以后,数据被分布式存储在不同的服务器上,那么我们就可以使用分布式计算框架(比如MapReduce,Spark等)来进行并行计算(或者说是分布式计算),即:每个服务器上分别统计自己存储的数据中关键字出现的次数,最后进行一次汇总,那么假如数据分布在100台服务器上,即同时100台服务器同时进行关键字统计工作,效率一下子可以提高几十倍。18.2目前有哪些深度学习分布式计算框架?18.2.1 PaddlePaddlePaddlePaddle【1】是百度开源的一个深度学习平台。PaddlePaddle为深度学习研究人员提供了丰富的八P1,可以轻松地完成神经网络配置,模型训练等任务。官方文档中简易介绍了如何使用框架在le://home/shishuai/Desktop/第十入章后端架构选型及应用场景.html5/5/2020第十入章后端架构选型及应用场景·线性回归·识别数字图像分类·词向量·个性化推荐·情感分析·语义角色标注·机器翻译等方面的应用Github:地址:https:/github.com/PaddlePaddle/Paddle18.2.2 Deeplearning4jDeepLearning4)(DL4)【2】是一套基于刊ava语言的神经网络工具包,可以构建、定型和部署神经网络。DL4)与Hadoop和Spark集成,支持分布式CPU和GPU。Deepleaming4包括了分布式、多线程的深度学习框架,以及普通的单线程深度学习框架。定型过程以集群进行,也就是说,Deeplearning4可以快速处理大量数据。Deeplearning4j在开放堆栈中作为模块组件的功能,使之成为为微服务架构打造的深度学习框架。Deepleaming4从各类浅层网络出发,设计深层神经网络。这一灵活性使用户可以根据所需,在分布式、生产级、能够在分布式CPU或GPU的基础上与Spark和Hadoop协同工作的框架内,整合受限玻尔兹曼机、其他自动编码器、卷积网络或递归网络。Deepleaming4在已建立的各个库及其在系统整体中的所处位置HADOOP建模ARBITER回DATAVECDATAVEC线性代数运行时:CPU、GPUGithub:地址:htps:/g ithub.com/deeplearning4j/deeplearning4j18.2.3 Mahoutle://home/shishuai/Desktop/第十入章后端架构选型及应用场景.html3/60
请如实的对该文档进行评分-
-
-
-
-
0 分