劰载中...飞翔的小鸟
首页大学学科资料人工智能《深度学习500问》第十八章+后端架构选型及应用场景
党建飞
院长

文档

179

关注

0

好评

1
PDF

《深度学习500问》第十八章+后端架构选型及应用场景

阅读 696 下载 0 大小 4.88M 总页数 0 页 2024-12-16 分享
价格:¥ 10.00
下载文档
/ 0
全屏查看
《深度学习500问》第十八章+后端架构选型及应用场景
还有 0 页未读 ,您可以 继续阅读 或 下载文档
1、本文档共计 0 页,下载后文档不带水印,支持完整阅读内容或进行编辑。
2、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
4、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。
55/2020第十入章后端架构选型及应用场景·第十入章后端架构选型及应用场景。18.1为什么需要分布式计算?。18.2目前有哪些深度学习分布式计算框架?■18.2.1 PaddlePaddle18.2.2 Deeplearning4j■18.2.3 Mahout■18.2.5Ray■18.2.6 Spark stream■18.2.7 Horovod■18.2.8 BigDL18.2.10 TensorFlowOnSpark。18.3如何进行实时计算?■18.3.1什么是实时流计算?■18.3.2实时流计算过程。18.4如何进行离线计算?■18.4.1数据采集·18.4.2数据预处理■18.4.3数据建模■18.4.4ETL■18.4.5数据导出■18.4.6工作流调度。18.5如何设计一个人机交互系统?■18.5.1什么是人机交互系统?·18.5.2如何设计人机交互系统的问答引擎算法架构?■18.5.3如何处理长难句?·18.5.4如何纠错?■18.5.5什么是指代消解?如何指代消解?·18.5.6如何做语义匹配?■18.5.7如何在海量的向量中查找相似的TopN向量?■18.5.8什么是话术澄清?·18.5.9如何对结果进行排序打分?■18.5.10如何评估人机交互系统的效果?。18.6如何设计个性化推荐系统?·18.6.1什么是个性化推荐系统?·18.6.2如何设计个性化推荐系统的推荐引擎架构?■18.6.3召回模块■18.6.4排序模块■18.6.5离线训练·18.6.6用户画像■18.6.7GBDT粗排■18.6.8在线FM精排■18.6.9算法介绍■18.6.10如何评价个性化推荐系统的效果?■18.6.11个性化推荐系统案例分析le://home/shishuai/Deskto p/第十入章后端架构选型及应用场景.html1/605/5/2020第十入章后端架构选型及应用场景o18.7参考文献第十入章后端架构选型及应用场景Markdown Revision 1;Date:2018/11/11Editor:梁志成Contact:superzhicheng@foxmail.com18.1为什么需要分布式计算?在这个数据爆炸的时代,产生的数据量不断地在攀升,从GB,TB,PB,ZB.挖掘其中数据的价值也是企业在不断地追求的终极目标。但是要想对海量的数据进行挖掘,首先要考虑的就是海量数据的存储问题,比如Tb量级的数据。谈到数据的存储,则不得不说的是磁盘的数据读写速度问题。早在上个世纪90年代初期,普通硬盘的可以存储的容量大概是1G左右,硬盘的读取速度大概为4.4MB/s.读取一张硬盘大概需要5分钟时间,但是如今硬盘的容量都在1TB左右了,相比扩展了近千倍。但是硬盘的读取速度大概是100MB/5。读完一个硬盘所需要的时间大概是2.5个小时。所以如果是基于TB级别的数据进行分析的话,光硬盘读取完数据都要好几天了,更谈不上计算分析了。那么该如何处理大数据的存储,计算分析呢?一个很简单的减少数据读写时间的方法就是同时从多个硬盘上读写数据,比如,如果我们有100个硬盘,每个硬盘存储1%的数据,并行读取,那么不到两分钟就可以完成之前需要2.5小时的数据读写任务了。这就是大数据中的分布式存储的模型。当然实现分布式存储还需要解决很多问题,比如硬件故障的问题,使用多台主机进行分布式存储时,若主机故障,会出现数据丢失的问题,所以有了副本机制:系统中保存数据的副本。一旦有系统发生故障,就可以使用另外的副本进行替换(著名的RAD冗余磁盘阵列就是按这个原理实现的)。其次比如一个很大的文件如何进行拆分存储,读取拆分以后的文件如何进行校验都是要考虑的问题。比如我们使用Hadoop中的HDFS也面临这个问题,只是框架给我们实现了这些问题的解决办法,开发中开发者不用考虑这些问题,底层框架已经实现了封装。同样假如有一个10TB的文件,我们要统计其中某个关键字的出现次数,传统的做法是漏历整个文件,然后统计出关键字的出现次数,这样效率会特别特别低。基于分布式存储以后,数据被分布式存储在不同的服务器上,那么我们就可以使用分布式计算框架(比如MapReduce,Spark等)来进行并行计算(或者说是分布式计算),即:每个服务器上分别统计自己存储的数据中关键字出现的次数,最后进行一次汇总,那么假如数据分布在100台服务器上,即同时100台服务器同时进行关键字统计工作,效率一下子可以提高几十倍。18.2目前有哪些深度学习分布式计算框架?18.2.1 PaddlePaddlePaddlePaddle【1】是百度开源的一个深度学习平台。PaddlePaddle为深度学习研究人员提供了丰富的八P1,可以轻松地完成神经网络配置,模型训练等任务。官方文档中简易介绍了如何使用框架在le://home/shishuai/Desktop/第十入章后端架构选型及应用场景.html5/5/2020第十入章后端架构选型及应用场景·线性回归·识别数字图像分类·词向量·个性化推荐·情感分析·语义角色标注·机器翻译等方面的应用Github:地址:https:/github.com/PaddlePaddle/Paddle18.2.2 Deeplearning4jDeepLearning4)(DL4)【2】是一套基于刊ava语言的神经网络工具包,可以构建、定型和部署神经网络。DL4)与Hadoop和Spark集成,支持分布式CPU和GPU。Deepleaming4包括了分布式、多线程的深度学习框架,以及普通的单线程深度学习框架。定型过程以集群进行,也就是说,Deeplearning4可以快速处理大量数据。Deeplearning4j在开放堆栈中作为模块组件的功能,使之成为为微服务架构打造的深度学习框架。Deepleaming4从各类浅层网络出发,设计深层神经网络。这一灵活性使用户可以根据所需,在分布式、生产级、能够在分布式CPU或GPU的基础上与Spark和Hadoop协同工作的框架内,整合受限玻尔兹曼机、其他自动编码器、卷积网络或递归网络。Deepleaming4在已建立的各个库及其在系统整体中的所处位置HADOOP建模ARBITER回DATAVECDATAVEC线性代数运行时:CPU、GPUGithub:地址:htps:/g ithub.com/deeplearning4j/deeplearning4j18.2.3 Mahoutle://home/shishuai/Desktop/第十入章后端架构选型及应用场景.html3/60
文档评分
    请如实的对该文档进行评分
  • 0
发表评论
温馨提示

      由于近期经常有客户反馈添加我们客服QQ没有反应,如果您在添加我们QQ客服一直没有通过,或者发送的信息一直没有回复,有可能是QQ消息通知吞吐或延迟,建议添加我们的客服微信进行联系。

注意:请不要使用Safari浏览器浏览本站!否则会有一些不兼容的情况出现比如视频无法播放

1. 本系统正在更新换代中,建设过程较为漫长,请耐心等待。

2. 本站已经与子站 BITCO其它子站点 实现互联互通。

3. 若您有业迪账户,直接登录即可,若子系统没有您的信息,将会提示您激活账户。

4. 如在使用与体验过程中有任何疑问,可与我们联系,我们唯一联系方式如下,建议添加我们客服微信,QQ经常有收不到消息与通知的情况。

微信号:暂未开放       QQ号:点我跳转

返回顶部