DeepLearning基础

前言

这篇文章主要讲解了深度学习的基础的一些概念，包括神经网络、损失函数等。文中介绍的只是一些基础的，其实还有很多文中并未涉及到的知识点。小编本人在这方面“功力”也不是很深厚，如有错漏，请指正！

背景介绍

1.深度学习应用

图像识别

手机中照片分类-图像分类

NLP（自然语言处理）应用

NLP+图像应用

线性分类器和神经网络

这部分的内容是以图像识别为例子，通过狗、猫、大象的图片识别的具体实例来介绍相应的概念。

线性分类器得分函数

如下图所示，f(x,W)是得分函数，通过输入样本x，以及函数内部的权重W，经由函数映射得到最后图像各分类的得分（或者概率）。

对于图像数据的处理：图像像素是32x32（长X宽），rgb三色通道，是一个三维矩阵，通过一些工具包将三维矩阵拉伸成一个向量。即3072x1，再带入运算。

下面这张图对线性分类器得分函数做了一个简要的图解。下图是三个类别（狗、猫、象）的分类，所以只有三个得分。

损失函数

损失函数，在机器学习里并不少见，简单来说，它用于评估预测结果与正确结果之间的差异。

loss function（损失函数）有不同选择，下面只介绍hinge loss 和 softmax两个损失函数。

hinge loss

注：hinge loss 是弱化的，无约束的损失函数。（看看就好）

举个例子，假设图像识别是猫的得分在S2处，那么看你非猫的得分与是猫的得分的距离是否在安全距离（delta为安全距离，上图中红色线段部分）以外，如果是则可以接受，如果不是，那么就会有一个惩罚，惩罚的大小就是：

（非猫的得分 - 最小安全距离）

在安全区之外惩罚为0

红框中公式既是计算的惩罚。

delta是自己设置的，代表你对这个分类器的要求严苛程度，属于超参数。一般设置为固定值1。

交叉熵损失函数（softmax分类器）

交叉熵描述的是两个分布间的一个关系。

这个损失函数区别于上面的hinge loss 没有安全距离这个概念，从概率分布的角度来看，一共有【狗🐶、猫🐱、象🐘】三种选项，假设图像是只猫，那么猫的概率为1其他为0，即标准答案为【0，1，0】，再用另外一种方式得到一个概率向量，下面介绍这个所谓的另外一种方式。

已知结果有S1，S2，S3三个score，在此基础上计算对三个score进行处理得到：

$[e^{s_1} e^{s_2} e^{s_3}]$

对上面的处理得到的值做归一化

$[\frac{e^{s_1}}{\sum_{i=1}^{n=3}e^{s_i}} \frac{e^{s_1}}{\sum_{i=1}^{n=3}e^{s_i}} \frac{e^{s_1}}{\sum_{i=1}^{n=3}e^{s_i}}]$

可能有人会问，这里为什么要用指数呢？为什么不把他们加在一起除呢？

这是因为得分可能是负值，但是我们希望出来的是一个概率，是一个正数。得到正数后，做一个归一化，即看这个概率有多高。

假设最后通过上面归一化得出来的概率向量是【0.9 0.05 0.5】。

接下来就是求【0 1 0】和【0.9 0.05 0.5】这两个概率向量的差异度有多高，这个时候需要用到交叉熵损失函数，可以从最大似然角度考虑，标准答案是0 1 0，则我们希望的是中间的个概率是最高的。

从log最大似然来考虑，我们希望

$logP_猫的值最大，这样就能和标准答案接近。$ $接下来再进行处理，加了个负号，-logP_猫，则是希望它最小，只有这样这个分类器拿到在猫上的置信度才是最高的$

可能有人会问，为什么最后取个log？

因为如果不取，概率连乘，概率本身是个很小的值，怕会损失精度（超过计算机计算的精度），所以取个log，相乘就变成了相加，保证了精度。这也是工程上经常会使用的。

在分类问题这里mean square error损失函数（均方差）就不适宜了，因为它是非凸的，非凸函数优化较为麻烦。

至于log的底数，一般以2为底数。

最下面的公式里的C，是为了工程计算方便，加一个常数C稳定幅度。

上面公式中j是代表所有的类别，yi代表第i个类别得分。

下图是带入例子中两种损失函数使用的图解。

神经网络简介

我们可以将神经网络看作一个黑盒子，我们希望通过神经网络这个黑盒子将我们输入的数据进行处理，得到我们想要的结果，如下图所示。

神经网络主要由输入层、隐藏层、输出层、神经元这几个部件组成。

输入层是数据的输入层。隐藏层是对原始数据做一个特征提取，可能是局部特征的抽取，做一个交叉和组合。神经元里则设置了相应的激活函数，对输入的数据进行处理。输出层则是将最后处理的结果进行一个输出。

从逻辑回归到神经元“感知器”

对于逻辑回归，它是一个简单的线性分类器，将输入向量，做一个线性组合得到值z，再通过sigmoid，当z取值非常大，sigmoid近似1，非常小，近似0。他可以把任何连续的值做一个压缩，压缩到0到1之间。这个特性，使得能够将任何连续的值压缩成0-1之间的一个概率值，用法有很多。下图的sita0、sita1、sita2是一个权重（biase）。

sigmoid函数的求导：f‘(x)=f(x)[1-f(x)]