Nocturne Studio

Deep Learning 笔记

23 Feb 2019

真实的神经元具有树突和轴突。一个神经元（突触前细胞）的树突接受刺激后，通过神经递质，经轴突发送给另一个神经元（突触后细胞）。

M-P 神经元模型模拟神经元的工作模式。神经元体可以接受多个输入（模拟树突），并且为每个输入设置一个权重。那么在某个时刻，神经元体所接收到的信号可以加权求和：

\[\sum_iw_ix_i\]

当这个和超过某个预设的阈值 b 时，就产生输出（模拟轴突）：

\[f(\sum_iw_ix_i-b)\]

该模型的局限在于，这些 w 的权值就是神经元的参数，是事先确定的。

06、07 年之前干不赢 SVM，从那之后，第三次兴起咸鱼翻身，改名深度学习。原因主要在于，第一现在有了「大」数据，样本数量级远超以往，第二现在有了「深」模型，计算机的算力大大提升（特别是 GPU 技术）。

从感知机中抽象出来的最简单的神经网络模型。

两个输入（权重分别为 $w_1$ 和 $w_2$），一个输出，

最理想的响应函数是模拟大脑的阶跃函数，但是阶跃函数不可导（其实搞信号的应该知道求导后是冲激函数 $\delta(t)$），无法应用于梯度下降法。

将神经元分层组合起来，每层的神经元之间没有连接，层与层之间进行互联。外侧的 input 和 output 两层之间，叫做隐藏层。当隐藏层数大于 2 的时候，就称为深度神经网络。

如果层次之间是单向传递数据的（没有反馈），就是前馈神经网络。

网络的输出 $y$ 与理想输出 $\hat{y}$ 之间可能会产生差别。会有一系列算法（比如梯度下降），通过后反馈机制修正参数（权重）。

duang！TensorFlow 出场。Tensor 即张量，一维张量就是向量，二维张量就是矩阵。

各种功能的卷积核，在每一层执行卷积运算（离散形式的卷积和）形成输出送往下一层。神经网络中的卷积核也是从数据中学习到的。

针对时序数据、序列化数据的处理。关键在于，隐藏层的函数会随着输入而变化，即 t 时刻的输入 x 所对应的隐藏层函数 h 实际上是由 t - 1 时刻的 x 和 h 来决定的。

降低参数数量，抓住时序数据中的长程。适用于自然语言处理。

面对的问题，是深度神经网络所共有的，叫做梯度爆炸。神经网络可以看作复合函数，梯度对应求导，复合函数求导存在着乘积。考虑权值 W，经过 100 多层后，如果 W 不等于 1，就会趋于无穷大或者 0。

引入「门」的概念。

研究实验发现，输入门、输出门的实际作用很小，关键是中间的记忆门。所以，重新优化后仅保留记忆门，形成「门循环网络」（GRU）。

判别式（Detective）对于图片进行判断，是真实的（Real）还是生成的（Generator）。生成式作为 Forger，可以将输入（往往是随机噪声）生成为贴近 Real 的图片。