REVIEW OF [Reducing the Dimensionality of Data with Neural Networks]

把高维的数据通过低维数据来表示用很多很重要的应用,比如存储、数据检索、匹配等等。
梯度下降算法下的神经网络可以解决这类问题,但是在多层神经网络中,如果直接使用梯度下降(back propagation)的方法,很难收敛到全局最优解。对于多层神经网络,如果初始化的权值随机,则很容易收敛到局部最优解,或者很难收敛。
但是如果初始化的权值已经接近了最优解,这时再用梯度下降的方法进行Fine-tuning,就更容易收敛到最优(或较优)解。
这个初始化权值的方法就是本篇paper的重点,paper中称之为Pretraining。
具体的方法是把原本多层神经网络中的相邻的每两层分别拉出来,用RBM的CD-1的方法进行预训练。
对于1、2两层,输入就是训练的样本图像,通过RBM中CD-1训练出w1。然后用训练完的结果对训练样本图像进行变换,得到2000维的向量,再把这个向量作为2、3两层的输入,用于训练w2。以此类推,即可预训练出所有的w。

然后通过图中的方式把w带入到网络中,再用梯度下降的方法对权值进行微调,即可得到最优(较优)的网络参数。

发表评论