机器学习是什么?

大家好，又见面了，我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元售后保障童叟无欺

What is Machine Learning?

机器学习现在是一大热门，研究的人特多，越来越多的新人涌进来。

不少人其实并没有真正想过，这是不是自己喜欢搞的东西，只不过看见别人都在搞，觉着跟大伙儿走总不会吃亏吧。

问题是，真有个“大伙儿”吗？就不会是“两伙儿”、“三伙儿”？如果有“几伙儿”，那到底该跟着“哪伙儿”走呢？

很多人可能没有意识到，所谓的machine learning community，现在至少包含了两个有着完全不同的文化、完全不同的价值观的群体，称为machine learning “communities”也许更合适一些。

机器学习是什么?

第一个community，是把机器学习看作人工智能分支的一个群体，这群人的主体是计算机科学家。

现在的“机器学习研究者”可能很少有人读过1983年出的“Machine Learning: An Artificial Intelligence Approach”这本书。这本书的出版标志着机器学习成为人工智能中一个独立的领域。它其实是一部集早期机器学习研究之大成的文集，收罗了若干先贤（例如Herbert Simon，那位把诺贝尔奖、图灵奖以及各种各样和他相关的奖几乎拿遍了的科学天才）的大作，主编是Ryszard S. Michalski（此君已去世多年了，他可算是机器学习的奠基人之一）、Jaime G. Carbonell（此君曾是Springer的LNAI的总编）、Tom Mitchell（此君是CMU机器学习系首任系主任、著名教材的作者，机器学习界没人不知道他吧）。Machine Learning杂志的创刊，正是这群人努力的结果。这本书值得一读。虽然技术手段早就日新月异了，但有一些深刻的思想现在并没有过时。各个学科领域总有不少东西，换了新装之后又粉墨登场，现在热火朝天的transfer learning，其实就是learning by analogy的升级版。

人工智能的研究从以“推理”为重点到以“知识”为重点，再到以“学习”为重点，是有一条自然、清晰的脉络。人工智能出身的机器学习研究者，绝大部分是把机器学习作为实现人工智能的一个途径，正如1983年的书名那样。他们关注的是人工智能中的问题，希望以机器学习为手段，但具体采用什么样的学习手段，是基于统计的、代数的、还是逻辑的、几何的，他们并不care。

这群人可能对统计学习目前dominating的地位未必满意。靠统计学习是不可能解决人工智能中大部分问题的，如果统计学习压制了对其他手段的研究，可能不是好事。这群人往往也不care在文章里show自己的数学水平，甚至可能是以简化表达自己的思想为荣。人工智能问题不是数学问题，甚至未必是依靠数学能够解决的问题。人工智能中许多事情的难处，往往在于我们不知道困难的本质在哪里，不知道“问题”在哪里。一旦“问题”清楚了，解决起来可能并不困难。

第二个community，是把机器学习看作“应用统计学”的一个群体，这群人的主体是统计学家。

和纯数学相比，统计学不太“干净”，不少数学家甚至拒绝承认统计学是数学。但如果和人工智能相比，统计学就太干净了，统计学研究的问题是清楚的，不象人工智能那样，连问题到底在哪里都不知道。在相当长时间里，统计学家和机器学习一直保持着距离。

慢慢地，不少统计学家逐渐意识到，统计学本来就该面向应用，而机器学习天生就是一个很好的切入点。因为机器学习虽然用到各种各样的数学，但要分析大量数据中蕴涵的规律，统计学是必不可少的。统计学出身的机器学习研究者，绝大部分是把机器学习当作应用统计学。他们关注的是如何把统计学中的理论和方法变成可以在计算机上有效实现的算法，至于这样的算法对人工智能中的什么问题有用，他们并不care。

这群人可能对人工智能毫无兴趣，在他们眼中，机器学习就是统计学习，是统计学比较偏向应用的一个分支，充其量是统计学与计算机科学的交叉。这群人对统计学习之外的学习手段往往是排斥的，这很自然，基于代数的、逻辑的、几何的学习，很难纳入统计学的范畴。

两个群体的文化和价值观完全不同。第一个群体认为好的工作，第二个群体可能觉得没有技术含量，但第一个群体可能恰恰认为，简单的才好，正因为很好地抓住了问题本质，所以问题变得容易解决。第二个群体欣赏的工作，第一个群体可能觉得是故弄玄虚，看不出他想解决什么人工智能问题，根本就不是在搞人工智能、搞计算机，但别人本来也没说自己是在“搞人工智能”、“搞计算机”，本来就不是在为人工智能做研究。

两个群体各有其存在的意义，应该宽容一点，不需要去互较什么短长。但是既然顶着Machine Learning这个帽子的不是“一伙儿”，而是“两伙儿”，那么要“跟进”的新人就要谨慎了，先搞清楚自己更喜欢“哪伙儿”。

引两位著名学者的话结尾，一位是人工智能大奖得主、一位是统计学习大家，名字我不说了，省得惹麻烦：

“I do not come to AI to do statistics”

“I do not have interest in AI”

作者网站- 机器学习书籍勘误地址: http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/MLbook2016.htm#勘误修订

机器学习是什么?

周志华 著. 机器学习, 北京: 清华大学出版社, 2016年1月.

(ISBN 978-7-302-206853-6) 425页，62.6万字

[前言&目录][样章]

{出版社网址} {网购网址1}{网购网址2}{网购网址3}

2016年6月起将为使用本书授课的教师提供PPT (免费；不提供后续支持)

需要的老师请填写申请表 [仅供教师使用] [后续提供部分习题参考答案]

[读者敬启] [勘误修订]

读者敬启：

这只是一本关于机器学习的入门教科书。作者试图通过化繁为简的讲述，使读者能够相对轻松地大致了解机器学习这个学科领域最基本的情况，掌握若干基本概念，理解一些重要的思想。本书的目的，是作为读者初窥机器学习大厦的“初级地形图”。

作为一个学期课程的教材，本书的篇幅进行了仔细考量，16章正文，每章6-7节，一般20-25页。研究生课程若以18周一个学期，则除去习题和答疑时间，基本上每周讲授一章；本科生课程则可进度稍缓，一学期讲授9-10章。囿于此限，作者须对内容材料、以及材料讲述的程度进行取舍。为了尽可能避免读者只见树木、不见森林，作者对许多材料尽可能述其精要、去其细冗，以便让读者能在有限的时间空间中感受更多的、应该接触到的内容；否则若不分巨细，其篇幅可能令读者望而生畏。鉴于上述原因，读者不要指望通过这一本书就能成为机器学习专家。但本书已力图反映出机器学习大厦最基本的面貌，覆盖较为全面，读者若对某方面深感兴趣，不妨按照书中各章给出的文献指引进一步深造，或有助于精进。

初学机器学习易陷入的一个误区，是以为机器学习仅是若干种常用方法的堆积，于是把目光仅聚焦在具体算法的推导和编程实现上；待到实践中拿出所学，却往往发现效果不尽如人意。其实，现实世界问题千变万化，少有照搬书本之法就能奏效之时。一个问题，常可从多种视角抽象；同一种方法，亦常可从多种视角导衍。现实中更多时候，需依据问题条件对已知方法进行改造融通方能有效。须知，方法是“死”的，思想才是“活”的。欲行此道，则务须把握方法背后的思想脉络。无论创新科研还是应用实践，皆以此为登堂入室之始；然而初学者得之甚难。因此，本书在有限的篇幅中更侧重于这个方面，冀望辅助读者奠造进一步学习精进的视野心法，而对一些读者稍下工夫就易自行弄清的冗细则惜墨不赘。

本书重点针对机器学习初学者，但作者仍希望这是一本耐读之书。因此，作者在一些角落融入了多年研习实践的些微心得，虽仅只言片语，但可能不易得之，进阶读者阅之或可莞尔；初入门径者搁后再阅，于原不经意处或能有新得。

读者若仅对某几种具体机器学习方法的推导或实现感兴趣，对其背后的相关思想不甚关心，那么本书可能不太适合。更不要把本书当做机器学习方法的“速查手册”，若仅需那样的材料，不妨直接查看维基百科。

机器学习飞速发展，很多新进展在学界尚无公论之前，作者以为不适于写入入门教科书中。但为了不致于与学科前沿脱节，本书也谈及了一些本领域专家有初步共识的相对较新的内容。

作者自认才疏学浅，对机器学习仅略知皮毛，更兼时间和精力所限，书中错谬之处难免，若蒙读者诸君不吝告知，将不胜感激。

勘误修订

[部分修订是为了更便于读者理解，并非勘误]

(第一版第一次印刷, 2016年1月)：

p.6, 图1.2: 图中两处”清脆” –> “浊响”
p.28, 第3段倒数第2行: “大量” –> “不少”
p.28, 边注: “例如 ……上百亿个参数” –> “机器学习常涉及两类参数: 一类是算法的参数, 亦称”超参数”, 数目常在10以内; 另一类是模型的参数, 数目可能很多, 例如……上百亿个参数. 两者调参方式相似, 均是产生多个模型之后基于某种评估方法来进行选择; 不同之处在于前者通常是由人工设定多个参数候选值后产生模型, 后者则是通过学习来产生多个候选模型(例如神经网络在不同轮数停止训练).”
p.31, 倒数第3行: “Event” –> “Even”
p.256, 第4段: “固定住${\bf \alpha}_i$” –> “以${\bf \alpha}_i$为初值”
p.256, 最后一段第1行: “${\bf E}_i =$” –> “${\bf E}_i = {\bf X} – $”
p.385, 式(16.25)和(16.26): 两处”$r_i$” –> “$R_i$”
p.385, 式(16.25)下一行: “若改用……” –> “其中$R_i$表示第$i$条轨迹上自状态$x$至结束的累积奖赏. 若改用……”
p.386, 式(16.28)下一行: “始终为1” –> “对于$a_i=\pi(x_i)$始终为1”
p.386, 图16.11, 第4步: 两处 “$\pi(x)$” –> “$\pi(x_i)$”

p.386, 图16.11, 第6步的式子 –> “$R=\frac{1}{T-t}\left(\sum_{i=t+1}^T r_i\right) \prod_{i=t+1}^{T-1} \frac{\mathbb I(a_i=\pi(x_i))}{p_i}$”

p.386, 图16.11, 边注”计算修正的累积奖赏.” –> “计算修正的累积奖赏. 连乘内下标大于上标的项取值为1.”; 去掉边注”重要性采样系数.”

(第一版第二次印刷, 2016年2月)：

p.38, 第6行: “$\epsilon^{m’}$” –> “${m \choose m’} \epsilon^{m’}$”
p.119, 第14行: “318–362” –> “533–536”
p.404, 式(B.3)最后一行的式子 –> “$\lambda g({\bm x})=0$”

(第一版第三次印刷, 2016年3月)：

p.15, 第5行: “居功” –> “厥功”
p.55, 最后一行: 式子括号中的逗号改为分号
p.125, 第3行: “减小” –> “增大”
p.125, 第4行，第6行: “减幅” –> “增幅”
p.125, 第5行: “减小” –> “增长”

(第一版第四次印刷, 2016年3月)：

p.59, 式(3.27)加边注: “考虑 $y_i \in \{0, 1\}$”

(第一版第五次印刷, 2016年3月)：

p.62, 第1行加边注: “$(\bm{\mu}_0 – \bm{\mu}_1)^{\rm T} \bm{w}$ 是标量”
p.78, 图4.4, 从右往左数: 第二个叶结点改为“好瓜”，第三个叶结点改为“坏瓜”
p.85, 图4.8, 从右往左数: 第二个叶结点改为“好瓜”，第三个叶结点改为“坏瓜”
p.85, 图4.8, 中间分支底层: “硬挺”–> “硬滑”
p.89, 图4.9, 中间分支底层: “硬挺”–> “硬滑”
p.103, 最后一行的式子: 求和的”$q$” –> “$l$”
p.399, 式(A.9): “$A_{1 \sigma n}$” –> “$A_{n \sigma n}$”
p.400, 第1行: “(1,4,3,2)” –> “(3,1,2)”
p.402, 式(A.32)最后一行的式子中: “$2{\mathbf A}$” –> “$2{\mathbf A}^{\rm T}$“

(第一版第六次印刷, 2016年4月)：

p.56, 图3.1中，红色第一和第二个点的坐标互换
p.114, 图5.15中, 卷积层 16@10×10 和采样层 16@5×5 各去掉 8 个方块
p.301, 式(13.12)的下一行: “$({\bm f}_l^{\rm T}\,{\bm f}_u^{\rm T})^{\rm T}$” –> “$({\bm f}_l^{\rm T}; {\bm f}_u^{\rm T})$”
p.372, 图16.2: 从”s=健康”到”s=溢水”的 “r=1” –> “r=-1”
p.376, 图16.5的边注: “第 4 行中式(16.4)的参数” –> “该参数在第4行使用”
p.385, 第二行: “在使用策略时并不需要$\epsilon-$贪心” –> “而不是为了最终使用”
p.387, 倒数第二行: “$\epsilon-$贪心策略, 而执行(第5行)的是原始策略” –> “原始策略, 而执行(第4行)的是$\epsilon-$贪心策略”
p.393, 第四段第一行: 去掉 “[Kuleshov and Precup, 2000]和”
p.395, 去掉最后一行
p.396, 去掉第一行
p.402, 式(A.32)加边注: “机器学习中 $\bf W$ 通常是对称矩阵”

(第一版第七次印刷, 2016年4月)：

p.42, 表2.5下面一段的第三行: “服从正态分布，其均值” –> “的均值”
p.42, 倒数第二行加边注: “原始检验要求$k$较大(例如$>30$)，若$k$较小则倾向于认为无显著区别”

(第一版第八次印刷, 2016年5月)：

p.5, 第2段倒数第3行: “3、2、2” –> “3、3、3”
p.5, 第2段倒数第2行: “$4 \times 3 \times 3 + 1 = 37$” –> “$4 \times 4 \times 4 + 1 = 65$”
p.26, 边注第2行: “2.6 节” –> “2.5 节”
p.41, 式(2.33)上面一行: “正态分布, 且均值 …… 因此变量” –> “正态分布. McNemar检验考虑变量”
p.41, 式(2.33)旁加边注: “$e_{01} + e_{10}$ 通常很小, 需考虑连续性校正, 因此分子中有 $-1$ 项”
p.45, 第一个边注: “由式(2.37)” –> “考虑到噪声不依赖于$f$, 由式(2.37)”
p.63, 式(3.45)下面一行: “$N-1$个最大” –> “$d’$个最大非零”
p.63, 式(3.45)下面第2行: “矩阵.” –> “矩阵, $d’\le N-1$.”; 加边注: “最多有$N-1$个非零特征值”
p.63, 式(3.45)下面第3行: “$N-1$维” –> “$d’$维”
p.63, 式(3.45)下面第4行: “$N-1$通常远小于数据原有的属性数” –> “$d’$通常远小于数据原有的属性数$d$”
p.100, 图5.5, 左图最上面的 “阈值$0.5$” –> “阈值$1.5$”
p.100, 图5.5, 左图最右边的 “阈值$0.5$” –> “阈值$-1.5$”
p.100, 图5.5, 左图中间的”1 -1 -1 1″ –> “1 1 -1 -1”
p.125, 式(6.18): “$y_s$” –> “$1/y_s$”
p.136, 式(6.54): 右边最后一项中的四处 “$i$” –> “$j$”
p.136, 式(6.54): 右边最后一项中最后的 “${\bm x}$” –> “${\bm x}_i$”
p.152, 第三个式子等号右端: “$0.375$” –> “$0.625$”
p.153, 第3行: “$0.038$” –> “$0.063$”
p.153, 第6行: “$0.038$” –> “$0.063$”
p.160, 式(7.29)下面第2行: “需多少字节来描述$D$” –> “对$D$描述得有多好”；加边注: “可以从统计学习角度理解, 将两项分别视为结构风险和经验风险”
p.239, 式(10.39)第二行式子: 去掉上标 “$2$”
p.244, 第13行: “Locally” –> “Nonlinear dimensionality reduction by locally”
p.244, 第14行: “2316” –> “2326”
p.249, 式(11.2): “$i=1$” –> “$k=1$”
p.253, 倒数第5行: “[Boyd and Vandenberghe, 2004]” –> “[Combettes and Wajs, 2005]”
p.263, 倒数第4行, 插入: “Combettes, P. L. and V. R. Wajs. (2005). “Signal recovery by proximal forward-backward splitting.” \textit{Mutiscale Modeling & Simulation}, 4(4):1168–1200.”
p.277, 式(12.29): “$E(h) – \hat{E}(h)$” –> “$\left| E(h) – \hat{E}(h) \right|$”
p.299, 式(13.9)后第三段第2行: “关于 $D_u$” –> “涉及 $C_u$”