文章摘要
文章探讨了大型语言模型(LLMs)的流畅性如何误导人们认为其具备真正的智能,尽管它们只是语言模型而非真正的智能体。作者指出,LLMs的流畅性让人们误以为它们通过了图灵测试,但实际上这并不代表它们具备人类的理解能力。文章批评了这种误解,并强调LLMs的本质是语言生成工具,而非真正的智能。
文章总结
标题:蒂米陷阱——斯科特·詹森
这是关于大型语言模型(LLM)系列文章的第二部分。在第一部分中,我讨论了我们在短短几年内从创作“海盗诗歌”的童真喜悦,到担心工作被取代的绝望情绪。我的主要观点是,我们应该放松一点,因为公司利用炒作周期扭曲了实际情况。
在这篇文章中,我想探讨我们如何陷入这种扭曲:我们将LLM视为有智能的,而实际上它们并没有。Jeppe Stricker最近的一篇文章启发了我,他指出:“AI生成的文本流畅且连贯,遵循论证规则和结构,以至于完全绕过了我们的怀疑。”
他说得对。LLM是语言模型,它们的超能力是流畅性。正是这种流畅性“黑”了我们的大脑,让我们误以为它们具备某种它们并不具备的能力。
这一点在人们声称ChatGPT“通过了图灵测试”时尤为明显。循环论证是,如果我们无法区分LLM和人类,那么它实际上就是人类。这让我摇头,因为它严重误解了实际情况。
首先,让我稍微迂腐一下。最初的图灵测试设计是通过纯文本界面比较两个参与者:一个是AI,一个是人类。目标是找出冒牌货。如今,测试从三个参与者简化为两个:一个人类和一个LLM。这使测试从比较变成了判断。
问题在于,我们非常、非常、非常希望在几乎所有事物中找到人性。这是一种被称为“拟人化”的倾向,而这种一对一的测试基本上让我们容易被“黑”。这就是为什么Stricker的引述如此重要。由于LLM被训练来重组其他人类写的文本,它绕过了我们的怀疑。
回到1960年代,Joseph Weizenbaum创建了一个模仿人类的聊天机器人ELIZA。它没有使用“AI”,只是依靠一长串的if-then-else子句来模仿罗杰斯心理学家的提问模式。这个程序在让用户相信他们正在与真人交谈方面出奇地有效。事实上,它的效果甚至超过了ChatGPT 3.5。那么,当LLM被一个1960年代的简单程序击败时,这说明了什么?
计算机似乎在通过图灵测试,但实际上是我们作为评判者失败了!我们如此倾向于拟人化,以至于我们迫切希望相信机器是人类。
这不是人类的缺陷,而是一种优势;这是我们建立社区和加强社会纽带的方式。然而,这种优势可以被“黑”。在看到他的创作愚弄了这么多人后,Weizenbaum预言性地观察到:“ELIZA展示了创造和维护理解幻觉是多么容易。这里潜伏着某种危险。”
当我谈论这个话题时,我会拿出一支标准的黄色铅笔,在橡皮擦末端贴上眼睛,并用一根管道清洁器缠绕它作为手臂。我称它为蒂米,并像木偶一样让它向观众说“你好”。当然,他们都会回应。蒂米然后描述它多么喜欢和孩子们一起画画并让他们笑。我问它长大后想做什么,它说:“想成为一名用户体验设计师,就像你一样。”
我回答:“哦,那真是太糟糕了,蒂米。”然后,我把它水平举到脸前,突然把它折断。观众们倒吸一口凉气。
这是一个令人震惊的时刻,许多人告诉我,这是演讲中最令人难忘的部分。原因很简单:他们与蒂米建立了联系。他们只认识了它15秒,但仍然认为折断它的行为是暴力的。
这就是为什么LLM如此容易愚弄我们。如果我们能在15秒内与一支铅笔建立人类联系,想象一下我们会对一个“AI系统”在一小时内产生什么感觉。我们希望它们是人类。这就是为什么我们称它们的频繁错误为“幻觉”,这个词暗示了暂时的失误。但这并不是失误;这是人类认知的根本缺失。
我们希望与这些系统建立联系。
我们希望在其中看到自己。
我们想为它们找借口。
这使我们成为美丽的人类,但也是不可靠的评判者。
我们不仅像对待生命一样对待LLM,还将它们的行为视为智能的。例如,我们说它们可以“总结”一份文档。但LLM并不总结,它们只是缩短,这是一个关键的区别。真正的总结,像人类所做的那样,需要外部背景和参考点。缩短只是重新处理文本中已有的信息。
这里以电影《黑客帝国》为例:
总结:一部关于自由意志和现实的哲学探索,伪装成一部关于打破控制系统的科幻动作片。
缩短:一个电脑黑客发现现实是假的,并学会了功夫。
总结和缩短之间有一个关键的区别。总结通过提供背景和外部概念来丰富文本,创造一个更广泛的理解框架。相比之下,缩短只是减少原始文本;它删除了信息而没有增加任何新的视角。
现在,我必须承认一件事:这个电影例子完全来自ChatGPT。我问它关于LLM的总结/缩短问题,它同意我的观点(所以显然这一定是真的!)。当我要求例子时,它建议了《黑客帝国》,甚至给了我“总结”和“缩短”的文本,我在这里逐字使用。
但等等,这不是自相矛盾吗?如果ChatGPT没有完全理解,它怎么能这样评论自己?这难道不意味着它一定具备某种智能吗?解释很简单:我们几乎总是误解新技术,认为它做的比实际多得多。
同样的事情发生在1990年代,当IBM的深蓝击败卡斯帕罗夫时。人们认为它是智能的,计算机很快就会超越人类。然而,深蓝并不智能。它只是通过暴力预测下一步,使用穷举搜索找到最佳选择。这创造了智能的幻觉,因为只有非常聪明的人类才能在那个水平上下棋。
LLM以类似的方式运作,用我们称之为智能的东西换取几乎人类写过的所有东西的庞大记忆。几乎不可能理解这给了它们多少背景来玩。
ChatGPT并没有总结《黑客帝国》;它缩短了其他人在网上写的评论。同样,当我问及LLM缩短而不是总结的问题时,它只是收集并缩短了其他关于该主题的文章。这只是一个更严肃版本的“海盗诗歌”。
这就是为什么LLM在总结知名书籍、论文和电影时表现得如此出色。它们并没有总结原始材料。相反,它们是从其他人类写的数百篇文章中合成答案。
但这也是为什么它们在总结未知或学术PDF时表现如此糟糕。没有网络文章的支持,LLM只能查看文档本身的文本,结果相当于“一个电脑黑客发现现实是假的,并学会了功夫”。
真正的总结和机械的缩短之间的关键区别不仅仅是一个语义游戏。它暴露了我们的困惑。当我们把缩短误认为总结时,我们在思考智能的方式上犯了一个根本性的错误。
我们过于轻率地使用“智能”这个词。许多科技界人士认为智能是简单的事实集合:问一个问题,得到一个答案,通过一个测试。如果LLM真的很花哨,它可能会分解问题,询问不同的子专家,并整理回复。这完全是信息检索。
几十年来,心理学家、哲学家、社会学家和人类学家一直在争论智能。这是一个棘手的话题,仍然没有明确的答案,但他们大致得出了相同的见解:智能远非普遍属性。它同样基于文化背景、语言和社会因素。智能不是独奏,而是社交行为,植根于共同的信仰和价值观。思考就是社交。智能是我们集体所做的。
人们假设LLM将具备通用智能的错误,并不是因为他们对技术评价过高;而是因为他们完全误解了成为人类的意义。
这有助于解释为什么ELIZA在图灵测试中“击败”了ChatGPT。通过模仿心理学家,它从我们解释为更“智能”的共享社会惯例中汲取。这就是为什么讨论LLM如此困难。正如我们在图灵测试中是糟糕的评判者一样,我们在理解智能本身方面也很糟糕。我们轻率地使用这个词,几乎没有真正的理解。正如我在关于炒作的文章中所写,这种缺乏精确性使我们无法清晰地看到LLM。
LLM模仿智能,但它们并不智能。就像深蓝击败卡斯帕罗夫时一样,我们误解了技术的工作原理。这并不意味着我们不能用LLM做惊人的事情。它们是非常强大的工具,但直到我们理解它们擅长什么,更重要的是,它们不擅长什么,我们才能正确释放它们的潜力。
我们必须学会看到铅笔,而不是被眼睛分心。逃离蒂米陷阱意味着将流畅的模仿视为一项令人印象深刻的技术成就,而不是一种志同道合的精神。这种洞察力帮助我们专注于它们做得好的事情,并避免浪费时间在它们不能做的事情上。我将在第三部分讨论这个话题。
评论总结
评论1的主要观点是质疑LLMs(大型语言模型)是否真正具有智能。作者认为,目前对“智能”的定义模糊不清,无法明确区分人类和LLMs的智能。作者提出两种可能性:一是将智能定义为人类独有的特性(如灵魂或大脑结构),但这种定义对评估机器的能力无益;二是以结果为导向定义智能,但批评LLMs缺乏智能的人应明确指出其具体失败之处。关键引用:“LLMs are often dismissed as not ‘intelligent’ because they work by inferring output based on learned input, but that alone cannot be a distinguishing characteristic, because that’s how humans work as well.”(“LLMs常被认为不‘智能’,因为它们通过推断学习输入来生成输出,但这不能作为区分标准,因为人类也是如此。”)
评论2指出LLMs在总结文本时可能会缩短内容,但也可能生成不准确的“幻觉”信息。作者举例说明,LLMs在总结时可能会添加原文中不存在的内容,这种行为类似于“添加幽灵”——虚假但看似真实的构造。关键引用:“The ‘hallucination’ behavior is like adding ‘ghosts’—false constructs that feel real but aren’t grounded.”(“‘幻觉’行为就像添加‘幽灵’——虚假但看似真实的构造。”)
评论3反驳了作者的观点,认为LLMs的设计目标是反映互联网上已有的内容,而非生成新颖或非正统的总结。作者指出,不同文化背景的人对同一部电影的理解和总结需求不同,LLMs提供的总结应与其所处的时代精神一致。此外,LLMs在解释概念时可能会使用公式化但新颖的类比,尽管这些类比可能不够准确,但有助于简化理解。关键引用:“If I want a summary of The Matrix, I prefer a summary that agrees with the zeitgeist, rather than a novel, unorthodox summary that requires a justification as to its deviation.”(“如果我要《黑客帝国》的总结,我更喜欢与时代精神一致的总结,而非需要解释其偏离的新颖或非正统总结。”)
总结:评论1质疑LLMs是否真正智能,认为智能定义模糊;评论2指出LLMs在总结时可能生成不准确信息;评论3认为LLMs应反映已有内容,而非生成新颖总结,并指出其解释概念时可能使用不准确的类比。