2.4 项目实战_Python机器学习算法: 原理、实现与案例-QQ阅读历史男生网

Python机器学习算法: 原理、实现与案例

上QQ阅读APP看书，第一时间看更新

上一章目录下一章

2.4　项目实战

最后，我们分别来做一个Logistic回归和一个Softmax回归的实战项目：使用Logistic回归和Softmax回归分别来鉴别红酒的种类，如表2-1所示。

表2-1　红酒数据集（https://archive.ics.uci.edu/ml/datasets/wine）

数据集总共有178条数据，其中每一行包含一个红酒样本的类标记以及13个特征，这些特征是酒精度、苹果酸浓度等化学指标。红酒的种类有3种，Softmax回归可以处理多元分类问题，而Logistic回归只能处理二元分类问题，因此在做Logistic回归项目时，我们从数据集中去掉其中的一类红酒样本，使用剩下的两类红酒样本作为训练数据。

读者可使用任意方式将红酒数据集文件letter-recognition.data下载到本地。此文件所在的URL为：https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data。

2.4.1　Logistic回归

1. 准备数据

首先，调用Numpy的genfromtxt函数加载数据集：

在这个项目中，我们使用Logistic回归鉴别第1类和第2类红酒，因此将数据集中第3类红酒样本去除：

另外，目前y中的类标记为1和2，转换为算法所使用的0和1：

至此，数据准备完毕。

2. 模型训练与测试

LogisticRegression的超参数有：

（1）梯度下降最大迭代次数n_iter

（2）学习率eta

（3）损失降低阈值tol（tol不为None时，开启早期停止法）

先以超参数（n_iter=2000，eta=0.01，tol=0.0001）创建模型：

然后，调用sklearn中的train_test_split函数将数据集切分为训练集和测试集（比例为7:3）：

在第1章中曾讨论过，应用梯度下降算法时，应保证各特征值相差不大。观察下面的数据集特征均值及方差：

发现其中一些特征值差别较大，因此调用sklearn中的StandardScaler函数对各特征值进行缩放：

接下来，训练模型：

经过700多次迭代后算法收敛。图2-3所示为训练过程中的损失（loss）曲线。

图2-3

使用已训练好的模型对测试集中的实例进行预测，并调用sklearn中的accuracy_score函数计算预测的准确率：

单次测试一下，预测的准确率为100%，再进行多次（50次）反复测试，观察平均的预测准确率：

50次测试平均的预测准确率为98.05%，这表明几乎只有一个实例被预测错误，结果令人满意。读者还可以尝试使用其他超参数的组合创建模型，但该分类问题比较简单，性能提升空间不大。

至此，Logistic回归项目就完成了。

2.4.2　Softmax回归

1. 准备数据

除了无须去掉第3类红酒样本外，Softmax回归项目的数据准备工作与Logistic回归项目的数据准备工作完全相同。

首先，调用Numpy的genfromtxt函数加载数据集：

然后，将目前y中的类标记为(1,2,3)，转换为算法所使用的(0,1,2)：

    1.  >>> y -= 1

至此，数据准备完毕。

2. 模型训练与测试

Softmax回归项目中的模型训练与测试过程与之前Logistic回归项目中的完全相同，以下叙述中某些细节不再重复。

SoftmaxRegression的超参数与LogisticRegression相同：

（1）梯度下降最大迭代次数n_iter

（2）学习率eta

（3）损失降低阈值tol（tol不为None时，开启早期停止法）

我们依然使用超参数（n_iter=2000，tol=0.01，eta=0.0001）创建模型：

将数据集切分为训练集和测试集（比例为7:3）：

对各特征值进行缩放：

训练模型：

使用已训练好的模型对测试集进行预测，并计算预测的准确率：

单次测试一下，预测的准确率为98.15%，同样，再进行多次（50次）反复测试，观察平均的预测准确率：

50次测试平均的预测准确率为98.04%，与之前的Logistic回归性能几乎相同。

至此，Softmax回归项目也完成了。

本周热推：

Python测试之道 Python大数据与机器学习实战 Flowable流程引擎实战 SQL Server实用教程（SQL Server 2008版）Oracle从入门到精通（第3版）

上一章目录下一章