机器学习入门教程：构建简单分类器

引言

机器学习是人工智能领域的重要分支，能够使计算机从数据中自动学习并做出决策。本文将带你一步步构建一个简单的分类器，帮助你理解机器学习的基本流程和核心概念。

一、机器学习基础概念

1. 什么是机器学习

机器学习是通过算法让计算机从大量数据中学习规律，从而对新数据进行预测或分类。它包括监督学习、无监督学习和强化学习三大类型。

2. 分类器简介

分类器是一种监督学习模型，用于根据输入数据将样本划分到预定义的类别中。例如，判断一封邮件是“垃圾邮件”还是“正常邮件”。

二、环境准备

1. 安装Python及相关库

确保已经安装Python。推荐使用Python 3.7及以上版本。
安装必要库：

1	`pip install numpy scikit-learn matplotlib`

2. 导入所需包

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report

三、数据准备与探索

1. 加载数据集

本文使用经典的鸢尾花（Iris）数据集，包含150条样本，分为3个类别。

1
2
3

iris = load_iris()
X = iris.data
y = iris.target

2. 数据集划分

将数据集分为训练集和测试集，比例为70%训练，30%测试。

1	`X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)`

3. 简单数据探索

打印数据维度和类别分布：

1
2
3

print("训练集样本数:", X_train.shape[0])
print("测试集样本数:", X_test.shape[0])
print("类别标签:", np.unique(y))

四、模型训练

1. 选择模型

本文采用逻辑回归（Logistic Regression）作为分类器，适合多分类问题且简单易用。

2. 训练模型

1 2	`model = LogisticRegression(max_iter=200) model.fit(X_train, y_train)`

五、模型评估

1. 预测测试集

1	`y_pred = model.predict(X_test)`

2. 计算准确率

1 2	`accuracy = accuracy_score(y_test, y_pred) print(f"模型准确率: {accuracy:.2f}")`

3. 输出分类报告

1	`print(classification_report(y_test, y_pred, target_names=iris.target_names))`

六、结果可视化（）

为了直观展示分类结果，可以绘制二维散点图（以前两个特征为例）：

plt.figure(figsize=(8,6))
for i, color, label in zip(range(3), ['red', 'green', 'blue'], iris.target_names):
    plt.scatter(X_test[y_test==i, 0], X_test[y_test==i, 1], color=color, label=label)
plt.xlabel(iris.feature_names[0])
plt.ylabel(iris.feature_names[1])
plt.title("测试集分类散点图")
plt.legend()
plt.show()