close

杂记

工智能考整理

教授学习的本质

study

在了解了一些人工智能的知识并阅读了一些相关文章之后,猛然意识到,其实人类学习的本质跟机器学习的本质存在着某种惊人的相似性,因此教授学习的过程也应遵循相应规律,整理思考,撰文记录

此文大量参考杨建国先生在知乎的回答以及其公众号内容

先说结论,毫无疑问学习的目的是让学习者在遇到新问题的时候能够利用所学知识解决。在这里,归纳学习本质的四个过程即是1.学习二阶知识 2.清洗信息 3.选定输入输出的例子作为训练集 4.使用例子作为验证集进行学习成果的验证。

而教授学习的本质具体是五个过程:1.描关并教授关于学习本质的四个过程 2.教授二阶知识 3.协助进行数据清洗,并教授关于数据清洗的知识 4.协助选定输入输出正确的例子作为训练集,用于进行知识的学习 5.通过例子作为验证集进行输出,验证对知识的学习成果。这五个过程在顺序上需要把1和2放在前面,在345的进行过程中不断重复1和2的内容。

下面来依次解释这五个过程。

描述并教授关于学习本质的四个过程

理论上来说,关于学习本质的四个过程是一种知识,而非一种信息,知识和信息的区别如下:

知识和信息的区别在于,知识对应的是理解与联系,而信息对应记忆,对于知识的描述是一种记忆而不是知识本身。

那可见仅仅教授知识的描述并不能真正传授知识,那为什么还要把这个过程放在最前面呢?原因有两点,其一是因为这离不开人类智能的特性:

人类智能的特性之一是:意识很难脱离自然语言进行思考,从某种程度来说,不提出某个概念的概括,人类是很难围绕这个概念进行意识活动的,可以理解为,若不构建这个概念,则人类几乎无法使用这个概念进行思考。

作者按:此处不免有一些民科……

因此,这里首先提出对于知识的描述,本质上是为了能够方便对于知识的结构化使用和验证。

原因的第二点在于,这5个步骤本身就是1归纳,5举例子,这个过程本身也符合学习的规律,即用知识的描述所对应的步骤例子,验证这个对于知识的描述,进而把对于知识的描述内化为知识本身。

教授二阶知识

二阶知识是指那些是“知识的知识”,是指关于“知识如何组合的知识”。

现实生活中的问题千变万化,每碰到一个问题都是全新的,如果解决这种问题的知识是一种全新的知识的话那学习就没有意义了——这意味着过去的知识不能适应新的问题。因此,利用有限所学的知识进行组合以解决近乎无限的问题才是学习知识的重要步骤,否则面对问题是无异于陷入泥沼。

以一个看似无从下手的问题为例:抖音每年平均的广告收入是多少?

获得该答案最直接的方式是拥有字节跳动公司内部的财务数据,但是这并不是是个容易的解决办法,显然公司的商业数据不可被轻易掌握。那是否无法解决,不是的。

这里提供一种可能的方式:广告收入=365天×日活×人均每天刷到的广告次数×平均每次广告呈现的费用,人均每天刷到的广告次数=人均每天的使用时长×平均刷多长时间出现一次广告。这里日活数据往往能够查到,人均每天使用时长也可以查到或者通过小规模调研可以测算,平均刷多长时间出现一次广告可以通过小规模调研测算,平均每次广告呈现的费用可以同字节跳动的销售了解。这样就能算出来数量级大致准确的抖音年广告收入情况。

这里其实就利用了简单的分解,把问题分解为“一年有多少天×每天有多少人用×一般广告出现的次数×单次广告的费用”这样的四个可以解答的子问题了。当然其中掺杂了一些简单的统计知识,也比较难评估出很精确的答案,但数字的估算已经比较接近真实情况了。可以看到如果不掌握使用“知识的知识”对已有知识进行组合的方式分解问题,那么就几乎无法解决这个本质来说比较简单的问题。

需要说明的是,在笔者看来,在教授学习的过程中,二阶知识的教授其实是第二重要的一步,其后的内容现行的教学体系已经在进行了,属于可以改进提高的内容,但是关于二阶知识的教授则是及其匮乏的。

协助进行数据清洗,并教授关于数据清洗的知识

首先说明,数据=信息+噪声,从天文数字的数据中清洗出有价值的信息,并将信息进一步压缩成知识是学习极其关键的一步。这里提到的信息,是指信息论中提及的信息概念,本质是能够成功缩小问题不确定性的数据,与之对应的噪声则是对于成功缩小问题的不确定性毫无帮助的数据。简单来说,还是以上文抖音广告收入的例子来说,知道抖音有多少员工没有意义,这是噪声;但是如果知道抖音有多少从事销售的员工以及平均每个销售的年平均广告业绩就是有意义的数据,这就是信息了。

简单来说,数据清洗即是从数据中通过一些判断筛选出其中的信息,这里需要清洗掉的噪声包括无意义的数据、存在谬误的数据和不利于形成自洽且符合真实世界规律的认知模式等(很不幸,以笔者有限的知识,尚难以做到MECE)。只有这样,其后对于信息(例子)的学习,才能得到有意义的结果,否则可能只是南辕北辙、学到错误的知识,就更谈何应用了。

至于关于数据清洗的知识,从行文可以看到,这里指的是关于判断、决策、处理数据的知识。出于笔者的知识有限,只列举一些,主要是一些基本的思考工具或者重要原则,如:形式逻辑和非形式逻辑的谬误,丹尼尔丹内特《直觉泵和其他思考工具》中提到的思考方式,心理学中自动化思维和意识之间的关系,求是而非问责的处事态度等等。

这里关于数据清洗的知识在笔者看来是对于学习者个人发展最重要的知识,因人无时无刻不在处理数据,各类信息被人有意无意地吸收学习并用于塑造个人,这部分的知识对于学习这个人的人生发展几乎起到决定性的作用,就好比如果一个人的视觉信息处理过程会对信号进行哈哈镜式的扭曲,则这个人永远都以为世界是哈哈镜般的效果一样。

协助选定输入输出正确的例子作为训练集,用于进行知识的学习

对应现行的教学体系,这就是选择练习题、布置作业的过程。但因学习目的的不同,选择的例子则可能与学习目的不同,即选择了错误的例子。

举例来说,如果学习者对于某个知识的掌握已经足够,即对应某一类问题已经能够很好解决的时候在用该类问题的例子进行训练则是错误的,不但学习无效并且占用了本应用于进行其他学习的时间;如果学习者希望学习游泳,但却永远在岸上进行游泳动作手脚分开的动作练习,则是错误的学习方式;如果学习者希望提高英语阅读能力,却在大声朗读课文,也是错误的学习方式,因为英语阅读能力本质是视觉信息到意思理解的过程,而非视觉信息到发声完完全全是另一种输入输出的关系,读得越大声,对于意思的理解就越差劲。

目前的个性化学习、自适应学习,很重要的投入就是在这一块。

通过例子作为验证集进行输出,验证对知识的学习成果

对应现有的教学体系,使用最广泛的考试就是其中的一种方式,但因为验证学习成果其实是所有步骤中最简单的一个,只需要制造问题就可以了,而人类最不担心的就是制造问题,这就导致这种最简单的过程被滥用,进而忽视到其他重要程度不再一个量级上的步骤——生活自然而言会包含各种各样的问题,不那么依赖单独再制造问题——拉到街上走一走,到处都是物理、化学、生物、历史、政治的大问题啊!

当然,验证学习成果的方式还有许多,比如项目制式的学习(PBL),这种学习方式把学习结果放在开头,即先丢出问题,再尝试拆分问题,再对于不了解的问题进行学习,最终解决问题。但因为实践时的评价标准、引导技术的依赖,导致PBL的推广可复制性在目前看来较差,且若完全依赖PBL进行学习,则很难做到自下而上基础知识的完整性——因解决项目的知识组合无法框定,条条大路通罗马就会导致不一定会走遍所有通向罗马的路。但是由此可见,PBL作为一种验证学习成果的教学策略,将会是相对有效的。

总结

以上五个步骤依赖笔者个人理解,难免偏颇,后续可以继续完善。

read more