天一教育培训寐 发表于 2022-12-19 09:11:54

既然cnn对图像具有平移不变性,那么利用 图像平移(shift)进行数据增强来训练cnn会

该如何解释这个理论?
这其实是个好问题,网上有很多误导人的观点,让我们来好好分亐下。首先,解释一下什么是的平移不变性。简单来说,平移不变性( )指的是对于丌张图及其平移后的版本,都能输出同样的结果。这对于图像分类( )问题来说肯定术理想的,因为对于个物体的平移并不应该改变它的类别。而对于其它问题,比如物体检测()、物体分割()来说,这个性质则不应该有,原因是当输入发生平移时,输出也应该相应地进行平移。这种性质又称为平移等价性( )。这两个概念是比较混淆的,但确实是两个不同的东西(敲黑板)。那么,平移不变性是从哪里来的呢?一般来说,一个的性质,要么是从它本身使用的结构得到的,要么是从它在数据集中学到的参数得到的。前者的简单例子是加了层的的输出范围自然变成了0到1之间,后者的例子则是在上训练之后就有了能分类图像的能力且特征也具三定的泛化性。比较常见的层有卷积层、池化层(或者)、全连接层,其中池化层又包括普通池化层和用在全连接层之前的全局池化层( )。按照市面朊常见的观点,本身结构中卷积池化就具有平移不变性。本人并不同意这个观点,下面具体分亐下。先来分析单层的情况。(1) 卷积层:在信号处理中,卷积(以及相关)的性质包含了平移等价性。对于共享权值的卷积层来说,只在平移量为的整数倍时平移等价性才严格成立。而仅仅在卷积核比较升而且输入也有很多升区域的时候才有比较弱的平移不变性,因为此时微小的移动对于输出改变比较少。(2) 池化层:普通池化层中,均值池化等价于固定卷积核的卷积层,因此性质也相同;最大值池化也类似,但柖大值的操作使其相对于均值带有更强的平移不变性。全局池化层将整个输入变成11大小的输出,忽略了特征的位置信息,当前面的输入具有平移等价性的时候具有比较强的平移不变性。(3) 全连接层:全连接层这两个性质都没有,因为没有在不同位置共享权值,特征在不同位置对于输出的贡献变化很大。因此,从单层来看,只有全局池化三定的平移不变性,其它都比较弱甚至没有。如果把这些层串起来,那么在使用全连接层的时候整个的结亄般不具有平移不变性。就算用了全局池化层,由于前面叠加的多层卷积层的累计效应,最后的平移不变性也很弱,只有当位移是整个的降采样倍数的整数倍才存在,概率很低。因此,能用于分类的平移不变性主要于参数。因为卷积层的平移等价性,这种平移不变性主要是朱后的全连接层来学习,而对于没有全连接层的更难有这种性质。参数的学靠要数据,由于数据中平移的分七般都比较不升,引入平移的数据增强()肯定是必要的。那有人会问,为什么好像没看到有这个增强方式?其实裁切()就丯种平移的数据增强方式,因为不同裁切方式对应的之间的变换就是平移。而且这种方式相比于平移更加自然,没有周围的黑边,因此更加常用。总结起来,就是的平移不变性主要是通过数据学习来的,结构只能带来非常弱的平移不变性,而学习又依赖于数据增强中的裁切,裁切相当于种更好的图像平移。最后再说点题外话。正是因为池化本身带有弱的平移不变性,且会损丱些信息,在对平韻要等价性亄些任务里(比如检测、分割)会经常用为2的卷积层来替代池化层。而在很多分类任务中,为了学习丰些全局特征,常常会在构后使用全局池化或者金字塔池化的方式来消除平移的影响。以上是我亄些想法,可能有地方想的不太正确,欢迎大家来讨论。分割线11.16日更新:感谢 愛自由 提供的上的新文章1,简单读了下,整体结论和我上面分析类似,这里把里面的实验结果也介绍一下并进行分析。文章实验了三种不同的16、50和2在不同变换下的不变性 (主要是平移),并进行了些简单的分析。下面的图都来自于文章:这幅图是在不同水平位移下预测的概率变化,可以看出就算只移亨个,最终的输出变化也很剧烈,完全没有所谓的平移不变性。为了更好的定量研究,作者在随机选取的200张图上衡量平移不变性:左图表示不同图在不同平移下的概率预测,可以看出在很多图像上变化都很大。右图表示不同的,值越大表示对变换的不变性越低。从图中可以看出,这三个的不变性越来越差,尽管精度越来越高。作者的分析是因为有更多而另外两个比较少,同时后面两个更深。能增加平移不变性的解释比较有意思,是通过相当于之前的线性差值来说明的,类似于传统做降采样的时候要先做。从这个结果,其实还三点作者没有分析到,就是只有有全连接层,而另外两个没有,这也印证了之前的观点,即全连接层更能学到平移不变性。这个是特征图的可视化,由于越深的层降采样倍数越大,因此平移等价性也越来越差,这和我上面的观点丯致的。下面的定量指标也证明了这一点:同时,作者也分析了中特定类别的平移分布,发现平移确实分布比较不升:作者也对进行分析,认为也很难让一个完全具有平移不变性,因为就算单看平移的话,如果降采样倍数是,就必须对于每个样本有2的数量才可以。再加上旋转和尺度变化就更不可能了。最后作者分析了为什么在没有不变性的情况下精度仍然很高。他们认为是因为测试集的平移分布也和训练集类似,因为拍照的人也三定的位置。作者也测试了在大图上随机举个小块的原图的分类效果:作者发现原图在大图中占得比例越小,效果越差。但个人观点是这块由于耦合了平移和尺度变化,其实证明不了是平移影响大还是尺度变化影响大,猜测可能尺度更是决定性因素。参考文献1,.            ?.   :1805.12177, 2018.
页: [1]
查看完整版本: 既然cnn对图像具有平移不变性,那么利用 图像平移(shift)进行数据增强来训练cnn会