机器学习初学者指南

基于 Oliver Theobald 《Machine Learning For Absolute Beginners》的交互式学习课程

理解算法本质 · 动手实践建模 · 连接真实数据科学项目

TOC

章节目录

点击任意章节卡片进入详细教程。每章包含概念理解、算法原理、工程应用、例题和 Python 代码实践。

基础篇：认识机器学习

机器学习概论

什么是ML、与传统编程的区别、Arthur Samuel定义、学习类型概览、应用场景

导论分类Python

监督学习入门

标签数据、回归与分类、训练流程、模型评估基础、损失函数

监督回归Python

无监督与强化学习

聚类、降维、关联规则、Q-learning、探索与利用、环境交互

聚类Q学习Python

数据清洗与特征工程

缺失值处理、异常值、独热编码、特征缩放、特征选择、数据转换

特征清洗Python

核心篇：建模与验证

数据划分与模型验证

训练/测试/验证集、交叉验证、随机化、分层抽样、数据泄露防范

验证交叉Python

回归分析

线性回归、最小二乘、逻辑回归、sigmoid函数、多项式回归、正则化

线性逻辑Python

分类算法

K-近邻、朴素贝叶斯、SVM、评估指标、混淆矩阵、ROC曲线

决策树与集成学习

决策树、信息增益、随机森林、AdaBoost、梯度提升、XGBoost

树集成Python

进阶篇：神经网络与项目实战

聚类分析

K-means、层次聚类、DBSCAN、轮廓系数、降维可视化、高斯混合

K-meansDBSCANPython

神经网络与深度学习

感知机、反向传播、激活函数、CNN/RNN简介、PyTorch/TensorFlow入门

偏差、方差与模型优化

欠拟合/过拟合、偏差-方差权衡、正则化、超参数调优、早停法

调优正则化Python

机器学习项目实战

完整项目流程、模型部署、真实案例：房价预测、客户流失、图像分类

实战部署Python

PL

学习计划

建议按以下进度完成学习，每周投入 5-7 小时。理解算法原理优先于调包，配合 Python 代码动手实践。

1

第 1-2 章：建立ML直觉

理解机器学习与传统编程的本质区别；掌握监督学习的回归与分类框架；建立数据驱动的思维模式。

2

第 3-4 章：数据是核心

探索无监督与强化学习的世界；掌握数据清洗与特征工程——这是ML中最耗时但最关键的步骤。

3

第 5-6 章：建模基础

学会正确划分数据与验证模型；深入理解线性回归与逻辑回归的原理，而非仅仅调用函数。

4

第 7-8 章：分类与集成

掌握KNN、朴素贝叶斯、SVM等分类器；理解决策树的可解释性与集成方法的强大威力。

5

第 9-10 章：聚类与神经网络

用聚类发现数据中隐藏的分组；揭开神经网络的神秘面纱，理解反向传播的本质。

6

第 11-12 章：优化与实战

掌握偏差-方差权衡与模型调优；将所学知识应用于完整的端到端机器学习项目。