基于文本概率统计的大语言模型为什么会产生出理解能力？

本篇为个人的观点，仅供参考。

“理解能力”本身就是一个抽象的词汇。如果按“费曼学习法”作为判断，那么能够单独复述出来就表示理解了。当然，理解也是分层次的，推荐观看：

【费曼访谈】“知道”与“理解”的区别：https://www.bilibili.com/video/BV1Mp4y1k7pr/
费曼访谈：磁铁为什么会相互吸引和排斥：https://www.bilibili.com/video/BV1HY4y1z78J/

大语言模型的基础理解能力，也就是复述的能力或者学术裁缝的能力，是很容易让人“理解”的，因为按文本的概率，加上一定的随机程度，是很自然可以创造出可过传统查重的新文本（不一定能过 AI 查重）。

而大语言模型的深层次理解能力却很难让人“理解”，生成的文本似乎不再是统计的结果，但这很可能是人的错觉。根据以上 AI 的说明，这种错觉是来源于大规模数据的训练，以及足够大、足够深、足够复杂的模型结构，从而能够生成出综合各方面知识、有比较强的理解能力和具有创造性的文本。其实，人类对某个专业领域的理解也是从模仿、当学术裁缝、阅读大量文献、做大量实验开始的。

大语言模型具有神奇的理解能力，这是基于喂养的海量的文本数据，但如果只是喂养“磁铁会相互吸引和排斥”等之类的现象数据，大语言模型似乎是很难推断出“四种基本作用力”的结论。这种“理解能力”是需要严格的数学推导、复杂的一步步数值计算，或者做大量的真实实验，不是靠道听途说，或者强记忆力、强分析能力所能给出的。这种基于数学结构、数值算法、实验数据的理解能力，本篇称为“超理解能力”，由于存在特征维度的指数增加，似乎是大规模统计无法跨越的鸿沟。

值得说明和思考的是：通过大量刷题所产生的数学推导和代码书写的能力，似乎不在“超理解能力”的范围内，有点应试教育和作弊的嫌疑了，但该方法确实对现有的知识可以有更深入的掌握和理解，能够产生接近于“超理解能力”的效果。该方法的发展路线是清晰的，潜力比较大，而且很有可能就是大语言模型的天花板，“小镇做题家”不容小觑。

更多阅读：多智能体协作是否会产生新的智能？

482 次浏览

【说明：本站主要是个人的一些笔记和代码分享，内容可能会不定期修改。为了使全网显示的始终是最新版本，这里的文章未经同意请勿转载。引用请注明出处：https://www.guanjihuan.com】

基于文本概率统计的大语言模型为什么会产生出理解能力？

Published by guanjihuan

发表评论取消回复

Published by guanjihuan

发表评论 取消回复

发表评论取消回复