神经网络编程基础(Basics of Neural Network programming)

2.1 二分类(Binary Classification)

逻辑回归是一个用于二分类(binary classification)的算法。首先我们从一个问题开始说起，这里有一个二分类问题的例子，假如你有一张图片作为输入，比如这只猫，如果识别这张图片为猫，则输出标签1作为结果；如果识别出不是猫，那么输出标签0作为结果。

符号定义

$ x$：表示一个$ n_x$维数据，为输入数据，维度为$ (n_x,1)$；

$ y$：表示输出结果，取值为$ (0,1)$；

$ (x^{（i）},y^{（i）})$：表示第$ i$组数据，可能是训练数据，也可能是测试数据，此处默认为训练数据；

$ X = [x^{(1)},x^{(2)},…,x^{(m)}]$：表示所有的训练数据集的输入值，放在一个 $ n_x \times m$的矩阵中，其中$ m$表示样本数目;

$ Y = [y^{(1)},y^{(2)},…,y^{(m)}]$：对应表示所有训练数据集的输出值，维度为$ 1 \times m$。

用一对$ (x,y)$来表示一个单独的样本，$ x$代表$ n_x$维的特征向量， $ y$表示标签(输出结果)只能为0或1。而训练集将由$ m$个训练样本组成，其中$ (x^{(1)},y^{(1)})$表示第一个样本的输入和输出，$ (x^{(2)},y^{(2)})$表示第二个样本的输入和输出，直到最后一个样本$ (x^{(m)},y^{(m)})$，然后所有的这些一起表示整个训练集。有时候为了强调这是训练样本的个数，会写作$ M_{train}$，当涉及到测试集的时候，我们会使用来$ M_{test}$表示测试集的样本数。

最后为了能把训练集表示得更紧凑一点，我们会定义一个矩阵用大写$ X$的表示，它由输入向量$ x^{(1)}$、$ x^{(2)}$等组成，如下图放在矩阵的列中，所以现在我们把$ x^{(1)}$作为第一列放在矩阵中，$ x^{(2)}$作为第二列，$ x^{(m)}$放到第$ m$列，然后我们就得到了训练集矩阵$ X$。所以这个矩阵有$ m$列，$ X$是训练集的样本数量，然后这个矩阵的高度记为$ n_x$。

$X = \left[ \begin{matrix} x^{(1)} & x^{(2)} & … & x^{(n)} \end{matrix} \right]$