周志华教授与他的森林书AI科技评论

傍晚小街路面上沁出微雨后的湿润,和煦的细风吹来,抬头看看天边的晚霞,嗯,明天又是一个好天气。走到水果摊旁,挑了个根蒂蜷缩、敲起来声音浊响的青绿西瓜,一边满心期待着皮薄肉厚瓤甜的爽落感,一边愉快地想着,这学期狠下了功夫,基础概念弄得清清楚楚,算法作业也信手拈来,这门课成绩一定差不了!

想必很多入门阶段的朋友看到这段都会第一时间想起当年被“西瓜书”支配的“恐惧”,“西瓜书”也即是周志华教授年出版的《机器学习》一书,因其书籍的封面是西瓜以及书籍内容以如何用各种机器学习的方法挑西瓜缓缓展开的缘故而被众多读者亲切地称为“西瓜书”。

1

周志华和森林书

“西瓜书”几乎是人工智能领域研究者和从业者人手一本的入门好书,然而很多人不知道的是早在“西瓜书”之前的年,周志华教授就曾出版过一本被称为“森林书”的英文专著:《EnsembleMethods:FoundationsandAlgorithms》。

由于《EnsembleMethods》在国内非常难买到,本书在豆瓣读书上的参评人数不多,但一小部分有机会读过原著的同学硬生生把分数给到了逆天的10分满星!但是买不到书对于很多读者来说无疑都是一种遗憾。

而好消息是近日“森林书”的中文版《集成学习:基础与算法》已经出版:

那么这本有望成为下一本人手必备的豆瓣满分好书究竟有何魅力呢?

“周志华与他的森林书”的故事由此展开~

周志华,南京大学教授、计算机系主任、人工智能学院院长、欧洲科学院外籍院士、ACM/AAAS/AAAI/IEEE/IAPRFellow、CCF会士。主要研究方向为人工智能、机器学习、数据挖掘。

周志华教授在集成学习领域研究多年,ChapmanHall出版社在年邀约周教授出版专著。该出版社曾出版随机森林发明人LeoBreiman的《ClassificationandRegressionTrees》、自助采样发明人BradleyEfron的《AnIntroductiontotheBoostrap》等名著,于是周教授应邀于年出版了《EnsembleMethods:FoundationsandAlgorithms》一书。

这本书专注于讲述集成学习这一类先进的机器学习方法,这类方法会训练多个学习器并将它们结合起来解决一个问题,其中的典型代表是Bagging和Boosting。通常,一个结合了多个学习器的集成会比单个学习器更加精确,集成学习方法在很多的实际任务中获得了巨大成功。

2

三十年Boosting理论探索的故事

在书籍之外周志华教授曾于今年亲自写过一个文笔颇佳的有关Boosting理论探索的故事。

年周志华教授与布瑞曼在欧洲机器学习大会期间探讨Boosting理论问题

以下节选该故事的两部分:

1、溯源

年,哈佛大学的莱斯利·维利昂特(LeslieValiant,计算学习理论奠基人、年ACM图灵奖得主)和他的学生迈克尔·肯斯(MichaelKearns,后来担任贝尔实验室人工智能研究部主任)提出了一个公开问题:“弱可学习性是否等价于强可学习性?”

这个问题大致上是说:如果一个机器学习任务存在着比“随机猜测”略好一点的“弱学习算法”,那么是否就必然存在着准确率任意高(与该问题的理论上限任意接近)的“强学习算法”?

直觉上这个问题的答案大概是“否定”的,因为我们在现实任务中通常很容易找到比随机猜测稍好一点的算法(比方说准确率达到51%)、却很难找到准确率很高的算法(比方说达到95%)。

出人意料的是,年,麻省理工学院的罗伯特·夏柏尔(RobertSchapire)在著名期刊MachineLearning上发表论文,证明这个问题的答案是“YES”!更令人惊讶的是,他的证明是构造性的!

也就是说,夏柏尔给出了一个过程,直接按这个过程进行操作就能将弱学习算法提升成强学习算法。过程的要点是考虑一系列“基学习器”,让“后来者”重点


转载请注明:http://www.aierlanlan.com/rzdk/4355.html