《深度学习500问》第一十三章+优化算法

我的文库

首页大学学科资料人工智能《深度学习500问》第一十三章+优化算法

党建飞

院长

文档

180

关注

好评

 关注

 主页

PDF

《深度学习500问》第一十三章+优化算法

 阅读 860  下载 1  大小 1.37M  总页数 14 页 2024-12-16 分享

价格：¥ 10.00

下载文档加入VIP

文档评论 收藏文档 违规举报 用手机查看 分享赚 ¥0.30

热门文档

2025-04-11 16:29:44 Android移动应用基础教程第三版课后习题答案
2025-04-07 14:39:05 绩效域的内容
2024-12-16 09:02:46 《深度学习500问》第一章+数学基础
2025-04-11 15:32:03 江西省六校2025届高三下学期3月第二次联考试题政治
2024-12-15 02:29:02 计算机网络（第八版）（谢希仁）答案
2024-12-28 10:28:42 第02章人体比例和尺寸
2025-04-11 15:32:03 江西省六校2025届高三下学期3月第二次联考试题生物
2024-12-15 02:33:39 六级阅读译文2022.12-2023.12
2024-12-28 10:28:42 第05章产品操纵装置
2025-01-12 23:31:50 Python背记手册
2025-03-18 17:38:21 大学生《形势与政策》课程论文（1800字） (3)
2025-01-12 23:38:28 算法设计与分析习题解答（第4版）

下载文档

/ 14

 全屏查看

《深度学习500问》第一十三章+优化算法



还有 14 页未读，您可以继续阅读或下载文档

下载文档继续在线阅读

下载提示文本预览常见问题

1、本文档共计 14 页，下载后文档不带水印，支持完整阅读内容或进行编辑。
2、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
4、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

5/5/2020第一十三章优化算法·第一十三章优化算法。13.1如何解决训练样本少的问题。13.2深度学习是否能胜任所有数据集？。13.3有没有可能找到比已知算法更好的算法？。13.4什么是共线性，如何判断和解决共线性问题？。13.5权值初始化方法有哪些？。13.5如何防止梯度下降陷入局部最优解？。13.7为什么需要激活函数？。13.6常见的损失函数有哪些？o13.7如何进行特征选择(feature selection)?·13.7.1特征类型有哪些？·13.7.2如何考虑特征选择·13.7.3特征选择方法分类■13.7.4特征选择目的。13.8梯度消失/梯度爆炸原因，以及解决方法·13.8.1为什么要使用梯度更新规则？■13.8.2梯度消失/爆炸产生的原因？·13.8.3梯度消失、爆炸的解决方案。13.9深度学习为什么不用二阶优化？。13.10为什么要设置单一数字评估指标，设置指标的意义？。13.11训练/验证/测试集的定义及划分o13.12什么是T0P5错误率？。13.13什么是泛化误差，如何理解方差和偏差？。13.14如何提升模型的稳定性？。13.15有哪些改善模型的思路·13.15.1数据角度■13.15.2模型角度■13.15.3调参优化角度■13.15.4训川练角度。13.16如何快速构建有效初始模型？。13.17如何通过模型重新观察数据？。13.18如何解决数据不匹配问题？■13.18.1如何定位数据不匹配？■13.18.2举例常见几个数据不匹配的场景？·13.18.3如何解决数据不匹配问题？·13.18.4如何提高深度学习系统的性能。参考文献第一十三章优化算法13.1如何解决训练样本少的问题目前大部分的深度学习模型仍然需要海量的数据支持。例如ImageNet数据就拥有1400多万的图片。而现实生产环境中，数据集通常较小，只有几万甚至几百个样本。这时候，如何在这种情况下应用深度学习呢？fle://home/shishuai/Desktop/第十三章优化算法.html1/1455/2020第一十三章优化算法(I)利用预训练模型进行迁移微调(fne-tuning)，预训练模型通常在特征上拥有很好的语义表达。此时，只需将模型在小数据集上进行微调就能取得不错的效果。这也是目前大部分小数据集常用的训练方式。视觉领域内，通常会Image Net_上训练完成的模型。自然语言处理领域，也有BERT模型等预训练模型可以使用。(2)单样本或者少样本学习(one-shot,few-shotlearning).,这种方式适用于样本类别远远大于样本数量的情况等极端数据集。例如有1000个类别，每个类别只提供1-5个样本。少样本学习同样也需要借助预训练模型，但有别于微调的在于，微调通常仍然在学习不同类别的语义，而少样本学习通常需要学习样本之间的距离度量。例如孪生网络(Siamese Neural Networks)就是通过训练两个同种结构的网络来判别输入的两张图片是否属于同一类。上述两种是常用训练小样本数据集的方式。此外，也有些常用的手段，例如数据集增强、正则或者半监督学习等方式来解决小样本数据集的训练问题。13.2深度学习是否能胜任所有数据集？深度学习并不能胜任目前所有的数据环境，以下列举两种情况：(1)深度学习能取得目前的成果，很大一部分原因依赖于海量的数据集以及高性能密集计算硬件。因此，当数据集过小时，需要考虑与传统机器学习相比，是否在性能和硬件资源效率更具有优势。(2)深度学习目前在视觉，自然语言处理等领域都有取得不错的成果。这些领域最大的特点就是具有局部相关性。例如图像中，人的耳朵位于两侧，鼻子位于两眼之间，文本中单词组成句子。这些都是具有局部相关性的，一旦被打乱则会破坏语义或者有不同的语义。所以当数据不具备这种相关性的时候，深度学习就很难取得效果。13.3有没有可能找到比已知算法更好的算法？在最优化理论发展中，有个没有免费午餐的定律，其主要含义在于，在不考虑具体背景和细节的情况下，任何算法和随机猜的效果期望是一样的。即，没有任何一种算法能优于其他一切算法，甚至不比随机猜好。深度学习作为机器学习领域的一个分支同样符合这个定律。所以，虽然目前深度学习取得了非常不错的成果，但是我们同样不能盲目崇拜。优化算法本质上是在寻找和探索更符合数据集和问题的算法，这里数据集是算法的驱动力，而需要通过数据集解决的问题就是算法的核心，任何算法脱离了数据都会没有实际价值，任何算法的假设都不能脱离实际问题。因此，实际应用中，面对不同的场景和不同的问题，可以从多个角度针对问题进行分析，寻找更优的算法。13.4什么是共线性，如何判断和解决共线性问题？对于回归算法，无论是一般回归还是逻辑回归，在使用多个变量进行预测分析时，都可能存在多变量相关的情况，这就是多重共线性。共线性的存在，使得特征之间存在冗余，导致过拟合。常用判断是否存在共线性的方法有：(1)相关性分析。当相关性系数高于0.8，表明存在多重共线性；但相关系数低，并不能表示不存在多重共线性；(2)方差膨胀因子MF。当VF大于5或10时，代表模型存在严重的共线性问题；(3)条件系数检验。当条件数大于100、1000时，代表模型存在严重的共线性问题。通常可通过PCA降维、逐步回归法和LASSO回归等方法消除共线性。fle://home/shishuai/Desktop/第十三章优化算法.html5/5/2020第一十三章优化算法13.5权值初始化方法有哪些？在深度学习的模型中，从雾开始训练时，权重的初始化有时候会对模型训练产生较大的影响。良好的初始化能让模型快速、有效的收敛，而糟糕的初始化会使得模型无法训练。目前，大部分深度学习框架都提供了各类初始化方式，其中一般常用的会有如下几种：1.常数初始化(constant)把权值或者偏置初始化为一个常数。例如设置为0，偏置初始化为0较为常见，权重很少会初始化为0。TensorFlow中也有zeros_initializer、ones_initializer等特殊常数初始化函数。2.高斯初始化(gaussian)给定一组均值和标准差，随机初始化的参数会满足给定均值和标准差的高斯分布。高斯初始化是很常用的初始化方式。特殊地，在TensorFlow中还有一种截断高斯分布初始化(truncated_normal_initializer）,其主要为了将超过两个标准差的随机数重新随机，使得随机数更稳定。3.均勻分布初始化(uniform)给定最大最小的上下限，参数会在该范围内以均勻分布方式进行初始化，常用上下限为(0，4.xavier初始化(uniform)在batchnom还未出现之前，要训练较深的网络，防止梯度弥散，需要依赖非常好的初始化方式。xaⅵr就是一种比较优秀的初始化方式，也是目前最常用的初始化方式之一。其目的是为了使得模型各层的激活值和梯度在传播过程中的方差保持一致。本质上xⅵer还是属于均勻分布初始化，但与上述的均勻分布初始化有所不同，xaⅵer的上下限将在如下范围内进行均勻分布采66n+m其中，n为所在层的输入维度，为所在层的输出维度。6.kaiming初始化(msra初始化)kaiming初始化，在cafe中也叫msra初始化。kaiming初始化和xavier一样都是为了防止梯度跡散而使用的初始化方式。kaiming初始化的出现是因为xavier存在一个不成立的假设。xavier在推导中假设激活西数都是线性的，而在深度学习中常用的ReLu等都是非线性的激活函数。而kaiming初始化本质上是高斯分布初始化，与上述高斯分布初始化有所不同，其是个满足均值为0，方差为2n的高斯分布：其中，n为所在层的输入维度。除上述常见的初始化方式以外，不同深度学习框架下也会有不同的初始化方式，读者可自行查阅官方文档。fle://home/shishuai/Deskto p/第十三章优化算法.html3/14

文档评分

请如实的对该文档进行评分

0 分

发表评论

提交评论