生活, 个人观点

基于文本概率统计的大语言模型为什么会产生出理解能力?

本篇为个人的观点,仅供参考。

“理解能力”本身就是一个抽象的词汇。如果按“费曼学习法”作为判断,那么能够单独复述出来就表示理解了。当然,理解也是分层次的,推荐观看:

大语言模型的基础理解能力,也就是复述的能力或者学术裁缝的能力,是很容易让人“理解”的,因为按文本的概率,加上一定的随机程度,是很自然可以创造出可过传统查重的新文本(不一定能过 AI 查重)。

而大语言模型的深层次理解能力却很难让人“理解”,生成的文本似乎不再是统计的结果,但这很可能是人的错觉。根据以上 AI 的说明,这种错觉是来源于大规模数据的训练,以及足够大、足够深、足够复杂的模型结构,从而能够生成出综合各方面知识、有比较强的理解能力和具有创造性的文本。其实,人类对某个专业领域的理解也是从模仿、当学术裁缝、阅读大量文献、做大量实验开始的。

大语言模型具有神奇的理解能力,这是基于喂养的海量的文本数据,但如果只是喂养“磁铁会相互吸引和排斥”等之类的现象数据,大语言模型似乎是很难推断出“四种基本作用力”的结论。这种“理解能力”是需要严格的数学推导、复杂的一步步数值计算,或者做大量的真实实验,不是靠道听途说,或者强记忆力、强分析能力所能给出的。这种基于数学结构、数值算法、实验数据的理解能力,本篇称为“超理解能力”,由于存在特征维度的指数增加,似乎是大规模统计无法跨越的鸿沟。

值得说明和思考的是:通过大量刷题所产生的数学推导和代码书写的能力,似乎不在“超理解能力”的范围内,有点应试教育和作弊的嫌疑了,但该方法确实对现有的知识可以有更深入的掌握和理解,能够产生接近于“超理解能力”的效果。该方法的发展路线是清晰的,潜力比较大,而且很有可能就是大语言模型的天花板,“小镇做题家”不容小觑。

更多阅读:多智能体协作是否会产生新的智能?

342 次浏览

【说明:本站主要是个人的一些笔记和代码分享,内容可能会不定期修改。为了使全网显示的始终是最新版本,这里的文章未经同意请勿转载。引用请注明出处:https://www.guanjihuan.com

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

Captcha Code