Home

Awesome

统计学习方法

Hits

Gitter chatPythonpull

本书已经出第二版,2019年5月之后所有内容更新参考第二版第一次印刷。

第一版内容见Release first_edition

[TOC]

工具包

为方便学习,整理一些工具说明。

前前言

如果需要引用这个Repo:

格式: SmirkCao, Lihang, (2018), GitHub repository, https://github.com/SmirkCao/Lihang

或者

@misc{SmirkCao,
  author = {SmirkCao},
  title = {Lihang},
  year = {2018},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/SmirkCao/Lihang}},
  commit = {c5624a9bd757a5cc88e78b85b89e9221deb08270}
}

前言

这部分内容并不对应《统计学习方法》中的前言,书中的前言写的也很好,引用如下:

  1. 在内容选取上,侧重介绍那些最重要,最常用的方法,特别是关于分类与标注问题的方法.
  2. 力图用统一框架来论述所有方法,使全书整体不失系统性。
  3. 适用于信息检索及自然语言处理等专业大学生,研究生

另外还有一点要注意作者的工作背景

作者一直从事利用统计学习方法对文本数据进行各种智能性处理的研究, 包括自然语言处理、信息检索、文本数据挖掘。

如果用我这个模型来实现相似度查找,和李老师这本书神似的就是《半导体光电器件》了,只可惜昔时年少,未曾反复研读。

希望在反复研读的过程中,将整个这本书看厚,变薄。这个系列的所有的文档,以及代码,没有特殊说明的情况下"书中"这个描述指代的都是李航老师的《统计学习方法》。其他参考文献中的内容如果引用会给出链接。

在Refs中列出了部分参考文献,有些参考文献对于理解书中的内容是非常有帮助的。关于这些文件的描述和解释会在参考部分对应的Refs/README.md中补充。这个文档中也添加了其他参考文献的一些说明。

方便参考文献下载, 在review02的时候,添加了ref_downloader.sh,可以用来下载书中列举的参考文献,更新过程随着review02的进行逐渐完成。

另外,李航老师的这本书,真的很薄(第二版不薄了),但是几乎每句话都会带出很多点,值得反复研读。

书中在目录之后有个符号表,解释了符号定义,所以如果有不理解的符号可以过来查表;在本书后面有个索引,可以通过索引查找对应的符号表示的含义在书中出现的位置。在本Repo中,维护了一个glossary_index.md,目的是给对应的符号补充一些说明,以及直接标注符号对应的页码,进度随review更新。

每个算法,示例结束之后会有一个◼️,表示这个算法或者例子到此结束。这个叫证明结束符,看文献多了就知道了。

关于对数底数

读书的时候经常会有关于对数底数是多少的问题,有些比较重要的,书中都有强调。 有些没有强调的,通过上下文可以理解。另外,因为有换底公式,所以,底具体是什么关系不是太大,差异在于一个常系数。但是选用不同的底会有物理意义和处理问题方面的考虑,关于这个问题的分析,可以看PRML 1.6中关于熵的讨论去体会。

另外关于公式中常系数的问题,如果用迭代求解的方式,有时对公式做一定的简化,可能会改善收敛速度。个中细节可以实践中慢慢体会。

关于篇幅

各章节篇幅占比

这里插入个图表,列举了各个章节所占篇幅,其中SVM是监督学习里面占用篇幅最大的,MCMC是无监督里面篇幅占用最大的,另外DT,HMM,CRF,SVD,PCA,LDA,PageRank也占了相对较大的篇幅。

章节之间彼此又有联系,比如NB和LR,DT和AdaBoost,Perceptron和SVM,HMM和CRF等等,如果有大章节遇到困难,可以回顾前面章节的内容,或查看具体章节的参考文献,一般都给出了对这个问题描述更详细的参考文献,可能会解释你卡住的地方。

CH01 统计学习及监督学习概论

Introduction

统计学习方法三要素:

CH02 感知机

Perceptron

CH03 k近邻法

kNN

CH04 朴素贝叶斯法

NB

  1. $IID\rightarrow$输入输出的联合概率分布
  2. $Bayes\rightarrow$后验概率最大的输出

CH05 决策树

DT

CH06 逻辑斯谛回归与最大熵模型

LR

关于最大熵的学习,推荐阅读该章节的参考文献[1],Berger, 1996, 有益于书中例子的理解以及最大熵原理的把握。

那么, 为什么LR和Maxent要放在一章?

CH07 支持向量机

SVM

CH08 提升方法

Boosting

----分割线----

姑且在这里分一下,因为后面HMM和CRF通常会引出概率图模型的介绍,在《机器学习,周志华》里面更是用了一个单独的概率图模型章节来包含HMM,MRF,CRF等内容。另外从HMM到CRF本身也有很多相关的点。

在书中第一章有说明监督学习的三种应用:分类,标注和回归。在第十二章中有补充,本书主要考虑前两者的学习方法。据此, 在这里分割也是合适的,前面介绍分类模型, 少部分提到了回归,后面主要介绍标注问题。

CH09 EM算法及其推广

EM

CH10 隐马尔可夫模型

HMM

CH11 条件随机场

CRF

CH12 监督学习方法总结

Summary

这章就简单的几页,可以考虑如下阅读套路:

李老师这本书真的是每次刷都会有新的收获。

----分割线----

第二版增加了八个无监督学习方法:聚类,奇异值分解,主成分分析,潜在语义分析,概率潜在语义分析,马尔可夫链蒙特卡罗法,潜在狄利克雷分配,PageRank。

CH13 无监督学习概论

Introduction

CH14 聚类方法

Clustering

CH15 奇异值分解

CH16 主成分分析

CH17 潜在语义分析

CH18 概率潜在语义分析

CH19 马尔可夫链蒙特卡罗法

CH20 潜在狄利克雷分配

CH21 PageRank算法

CH22 无监督学习方法总结

后记

整个这本书里面各章节也不是完全独立的,这部分希望整理章节之间的联系以及适用的数据集。算法到底实现到什么程度,能跑什么数据集也是一方面。

data_algo_map

参考