式说新语深度学习强化学习监督式学习都是什么鬼

歪？警察叔叔吗？我的智商被偷了.......

· 式说新语 ·

式说新语是第四范式面向公众的AI（人工智能）科普小栏目。

在这里，小式科普AI知识，也安利范式八卦。

· 式说新语 ·

Hi哎喂扒第，在一群大魔王的温暖呵护（冷酷蹂躏）下，小式又欢欣鼓舞（生不如死）地度过了一周。每次交锋，小式都毫不费力地刷新了大魔王们对我无知程度的认识。最近，魔王们常常露出一脸慈爱的表情，并把这种“纯粹严肃的学术探讨”定义为“IQ探底游戏”。以下，根据上周“你最想看什么料”的投票结果，为大家奉上小式PK魔王001之ROUND2”：

魔王001说，我所说的这些概念都是机器学习的基本概念，所以他给我推荐了这本书：

言归正传，深度学习监督式学习非监督式学习强化学习到底都是什么鬼呢？小式粗暴地认为，不管是机器学习深度学习监督式学习，终究都离不开学习二字。小式理解，学习就是通过教授或经验，实现举一反三的能力。下面，经过大魔王001的讲解，小式和大家分享下自己了解到的东东。

深度学习：换了马甲的神经网络

上周我们说过，深度学习并非黑科技，其实就是换了马甲的神经网络（点击查看上周回顾），其动机在于建立、模拟人脑进行分析学习。所谓深度，一是指原来的神经网络只能训练不超过三层的神经元，现在的神经网络能高效地训练十一、二层甚至更多；二是指层与层之间的连接也更复杂。据解说，“深度学习的好处之一是将用非监督式或半监督式的特征学习和分层特征提取的高效算法来替代手工获取特征。”

看到这段时，本来以为已经理解了的小式还是受到了惊吓。那么，监督式非监督式半监督式学习又是何方神圣呢？

“有老师教”的监督式学习

维基上说，监督式学习是一个机器学习中的方法，可以由训练资料中学到或建立一个模式，并依此模式推测新的实例。一个监督式学习者的任务在观察完一些训练范例后，去预测这个模式对任何可能出现的输入值的输出。要达到此目的，学习者必须以"合理"（见归纳偏向）的方式从现有的资料中一般化到非观察到的情况。

翻译成人话：监督式学习就是一个人在学习时，有老师告诉它标准答案，让它知道什么是对，什么是错，这样经过一定程度的训练，他就能根据经验总结特征，然后在出现类似的情景时，就能根据特征自行判断对错。

“自学成才”的学霸-非监督式学习

刚才说了监督式学习就是“有老师教”，那么自然地，非监督式学习就是没老师告诉它一个标准的答案，要依靠自己“自学成才”——就是通过一大堆学习资料（数据），在无人指导的情况下，努力通过自己的观察，挖掘出隐藏在数据下的结构，得出特征。等等，这个感觉怎么有点熟悉？

虽然小式把非监督学习比成学霸，但监督式学习和非监督式学习并无高下之分。

那什么是半监督式学习呢？就是其训练的数据一部分是有参考答案的，一部分是没有的。为什么会这样呢？因为隐藏在半监督学习下的基本规律在于：数据的分布必然不是完全随机的，通过一些有标签数据的局部特征，以及更多没标签数据的整体分布，就可以得到相对更好的分类结果。

举个例子，判断我司谁是大魔王？如果只有我（女生）和三个大魔王（都是男生），那么监督式学习依据已知的性别标签，很可能把判断大魔王标准定为：男生是大魔王。但是如果我又叫了二十个人过来，而不给任何可以参考的标签，就可以分析出更多大魔王的相似特征：如高智很商，能力极强，行业大牛等等。

吃一堑长一智的强化学习

在大魔王给我讲解强化学习前，小式先去维基和百度了强化学习的概念：

维基：强化学习是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。再看百度：所谓强化学习就是智能系统从环境到行为映射的学习，以使奖励信号(强化信号)函数值最大。

不知道你们，反正小式看完就是“债见”的感觉。还好，经过大魔王点化，小式终于明白，强化学习就好比不给机器任何指导，让它在一个迷宫里自己走动，如果碰壁了，就pass掉这条路，如果最后找到了出口，就记下这个正确的路子。

说白了，强化学习就是个吃一堑长一智的过程。但因为强化学习强调的是取得最大化的回报，所以这里的吃一堑长一智基于的不是一个当下的反馈，而是基于全局的一个整体回报。拿阿法狗举例，强化学习不是立刻告诉阿法狗当下走的这一步棋好不好，而是追求一整盘棋下得好不好。

呼，终于讲完啦，了解更多AI芝士，翻到最后扫码关注“第四范式”。

各位看倌该点赞点赞该转发转发，不然，我要关门放我家大魔王们出来啦！

关于第四范式

第四范式是国际领先的人工智能技术与服务提供商。第四范式团队兼具全球最顶尖的科技前沿和业界实战经验，拥有国际顶尖的理论背景，极致的工匠精神和对行业的深度理解，致力于“从需求出发”、“以业务增值为导向”，为企业找到下一个业绩增长点，建立新的发展模式，并实现基于人工智能的行业应用。