2.1 二分类(Binary Classification)
逻辑回归是一个用于二分类(binary classification)的算法。首先我们从一个问题开始说起,这里有一个二分类问题的例子,假如你有一张图片作为输入,比如这只猫,如果识别这张图片为猫,则输出标签1作为结果;如果识别出不是猫,那么输出标签0作为结果。
符号定义
$ x$:表示一个$ n_x$维数据,为输入数据,维度为$ (n_x,1)$;
$ y$:表示输出结果,取值为$ (0,1)$;
$ (x^{(i)},y^{(i)})$:表示第$ i$组数据,可能是训练数据,也可能是测试数据,此处默认为训练数据;
$ X = [x^{(1)},x^{(2)},…,x^{(m)}]$:表示所有的训练数据集的输入值,放在一个 $ n_x \times m$的矩阵中,其中$ m$表示样本数目;
$ Y = [y^{(1)},y^{(2)},…,y^{(m)}]$:对应表示所有训练数据集的输出值,维度为$ 1 \times m$。
用一对$ (x,y)$来表示一个单独的样本,$ x$代表$ n_x$维的特征向量, $ y$表示标签(输出结果)只能为0或1。 而训练集将由$ m$个训练样本组成,其中$ (x^{(1)},y^{(1)})$表示第一个样本的输入和输出,$ (x^{(2)},y^{(2)})$表示第二个样本的输入和输出,直到最后一个样本$ (x^{(m)},y^{(m)})$,然后所有的这些一起表示整个训练集。有时候为了强调这是训练样本的个数,会写作$ M_{train}$,当涉及到测试集的时候,我们会使用来$ M_{test}$表示测试集的样本数。
最后为了能把训练集表示得更紧凑一点,我们会定义一个矩阵用大写$ X$的表示,它由输入向量$ x^{(1)}$、$ x^{(2)}$等组成,如下图放在矩阵的列中,所以现在我们把$ x^{(1)}$作为第一列放在矩阵中,$ x^{(2)}$作为第二列,$ x^{(m)}$放到第$ m$列,然后我们就得到了训练集矩阵$ X$。所以这个矩阵有$ m$列,$ X$是训练集的样本数量,然后这个矩阵的高度记为$ n_x$。