文章摘要
Tomáš Baránek是一位热爱技术的出版商,长期使用LLM聊天机器人并参与机器翻译测试。尽管他完成了人工智能和机器学习课程,并训练自己的实验模型,但他对生成式LLM的使用逐渐减少,部分原因是对结果的不满,以及对算法背后数学层面的深入理解。他主张在使用生成式LLM时保持克制和谨慎。
文章总结
标题:PROMPT_ - Tomáš Baránek - Medium
来源网址: https://lifehacky.net/prompt-0b953c089b44
发布时间: 2025年7月19日08:51:09.351Z
内容:
12分钟阅读
6小时前
免责声明:我是一名图书出版商,并且热爱技术。技术可以赋予人们力量。自从LLM聊天机器人广泛可用以来,我一直在使用它们。我定期与我们的翻译合作,测试机器翻译。我刚刚在我的母校马萨里克大学完成了两门人工智能和机器学习的课程,并且正在训练自己的实验模型(用于预测畅销书:)。我认为机器学习是一项了不起的发明和进步的催化剂。尽管如此,我仍然有自己的疑虑。
我注意到,近几个月来我的热情在逐渐消退。我对聊天机器人的使用显著减少。这部分是由于对结果的不满(作为一个完美主义的出版商),但也由于ML课程。我有机会深入了解算法的表面之下。我现在能够辨别它们的数学方面,而不是“形而上学”的方面。
以下是我对生成式LLM的实际经验和问题。我的经验主题是克制和谨慎。
语言模型在以下方面帮助我…
💯 编程时
- 我在编程时非常欣赏LLM(如Copilot、Cursor、Google Colab Gemini)的咨询帮助。我尽力深入理解数据科学工具,并创建小型应用程序。然而,我完全避免代码生成和代码建议——当我使用它们时,我没有学到任何东西,所以我关闭了这些功能。
- LLM在开发中的一个显著优势是,答案的有效性不是信任问题(比如当你问ChatGPT罗马尼亚最大的公司是什么时);在编程环境中,你可以立即通过评估代码来验证答案(至少对于代码片段)。所以你马上就知道:有效还是无效,喜欢还是不喜欢。你就在源头,实际上你就是源头——尤其是在简单的项目中,这是一个完全封闭的反馈循环。
- 我暂时搁置学习编程是否有意义的问题,但目前我肯定会说“是”。分析师伊恩·布雷默最近表示,学习编程是我们今天可以给年轻人最糟糕的职业建议。我倾向于认为,软件和系统开发比纯粹的编码更复杂,停止教授编程或更广泛的计算机科学基础还为时过早。
🤔 解决技术和知识有限的问题时
- 聊天机器人偶尔帮助我理解我完全不理解的短语(例如,技术文本中的抽象概念或复杂句子)。有时我要求它将概念可视化为图表:这有助于我的大脑更清晰地解码关系。可视化也更容易识别LLM的错误。
- 有时,在完成手稿后,我会要求进行批判性评估或正式审查(但我不让LLM评判我的风格)。我最好的文本批评伙伴是我的妻子凯特琳娜;她非常细致,不太夸奖我。
- 偶尔,我会谨慎使用专门的研究工具(如SciSpace、Elicit)。它使用科学研究的精选数据库,并有一些显著的优势。ChatGPT的深度研究在考虑相关来源方面让我失望(通常是错误信息、晦涩或不存在的信息,而忽略了关键信息);偶尔它能找到传说中的“大海捞针”。
- 有时我会要求它创建批量数据转换的脚本(如XLS、CSV、markdown、.plist等格式的列表或表格)。这很实用,但通常第一次尝试不会成功。
- 有时,我会拍下度假时损坏的电器或港口的船只,或者芬兰的菜单,以了解如何修理它,它是什么类型的船,或者是否有牛排。
- 我维护了一些实验性的公共聊天机器人,它们回答关于我的博客或我们网站上书籍的问题(它们很好,但也会随机建议废话)。
- 设计用于转换口语的服务和工具(如Plaud、Pendant——我正在测试两者)对我来说不值得,所以我将在实际测试期后终止订阅。除了重大的安全风险和隐私侵犯外,它们在理解上下文、识别说话者、讽刺和幽默方面存在问题,而我经常使用这些。它们的转录“有趣”——但方式不对。然而,我使用Claap和Zoom进行快速的全文本搜索,而不进行总结(再次由于转录错误,但比通过听力搜索更好)。
🙅♂️ 但除此之外,我完全避免使用模型…
- …我不使用语言模型(LLM聊天机器人)进行写作和文本创作…
- …用于总结或搜索较大的文本(例如书籍和文章)
- …用于头脑风暴、文案撰写,通常在创意和营销领域等。
- …用于搜索或验证互联网上的事实和信息…
- …作为心理健康和健康顾问(起初,我倾向于使用它们进行一些评估——今天,我意识到没有专门的工具,这是不稳定的;必须咨询专家)
…或其他用途。
在处理这些任务时,我运用我的智慧,咨询专家或检查可靠的主要来源。
虽然两年前我对LLM模型的能力感到着迷,但今天我再次对人类大脑的能力感到着迷。
你可能想知道为什么我如此怀疑。在深入探讨之前,我将简要总结我的想法。
- 我喜欢写作、思考、玩弄文字和发展想法。 我发现训练我的灰质细胞(如赫尔克里·波洛所说)是必不可少的,并且我很享受——这可能更费力,速度稍慢,但学习更深,我可以为结果担保。除此之外,我可以始终引用我所写的内容。
- 当前模型的文本输出不如我的(尤其是在捷克语中,这是我的母语);它们是人工的,有些地方感觉不对。我自己的文本有错误,冗长,但我希望它们有独特的个性(就像其他人写的真实文本一样)。是的,我尝试个性化一个给定的模型来模仿我的风格。结果?也许它能骗过别人——但骗不了我。
- 我喜欢人类。 不久前,我生成了几封电子邮件的部分内容。感觉非常肤浅。现在,当有人用LLM给我写信时,我也有同样的印象(通常是电子邮件跟进或——以前是真实的——新闻通讯)。
- 事实性:LLM模型的反应不可预测地不可靠和不可解释(目前)。在我不太了解的领域,我不得不仔细检查,以免显得愚蠢。在我熟悉的领域,我可以看到明显的错误,这只会让我更加沮丧。
现在是我的详细论点。
原因1:我不想变得认知懒惰
在麻省理工学院研究人员最近的一项研究(《你的大脑在ChatGPT上:使用AI助手进行写作任务时的认知债务积累》)中,使用LLM写作减少了作品的原创性。更值得注意的是,当使用脑电图测量时,与仅使用大脑或搜索引擎的参与者相比,LLM也减少了大脑的连接性。那些在前三项任务中使用LLM,然后不得不用大脑写文章的参与者,结果最差。“相比之下,之前接触过LLM使用的LLM-to-Brain组,在大多数频段中显示出较少的协调神经努力,并且也偏向于LLM特定的词汇,”研究报告称。另一方面,在完成工作后使用LLM可以提高结果的质量和连接性,但从LLM开始似乎是一个棘手的选择。
获取Tomáš Baránek的故事
加入Medium免费获取这位作家的更新。
有趣的是,使用LLM的参与者无法准确引用他们的作品,并且最不可能认为这是“他们自己的”。另一方面,使用大脑和搜索引擎的参与者在大多数情况下都能可靠地引用,并且没有削弱所有权感。这与我的经验一致。
英国研究人员的一项研究(《警惕元认知懒惰:生成式人工智能对学习动机、过程和表现的影响》)得出了类似的结论:LLM可以帮助个人更快更好地取得成果,但它削弱了独立学习的能力,使人们不太习惯独立思考。
这两篇论文都值得一读。但我警告你:如果你在第一项研究中使用AI总结,你将会遭到作者的报复,正如《时代》杂志所描述的那样 :)
顺便说一句,自动总结也是我避免的事情之一。 在信息泛滥中,提供书籍或文章的浓缩摘要似乎是最伟大的发明。然而,问题与实用价值和阅读乐趣有关:在我看来,阅读最有价值的是你在阅读原文时偶尔触发主题遥远的关联(并学习)。但这些只有在你全面参与和个人神经网络的情况下才会出现,而LLM对此一无所知。你读了一本关于商业的书,作者提到他在狗生病时拒绝搬家,你意识到与公司搬迁计划的基本情感联系——于是你开始讲述一个故事。总结会抹去这一点,你的灵光一现,潜在的真正洞察力,以及其他随机关联将被完全通用和无情感的叙述所取代。
我也被关于OSINT社区批判性思维终结的现实生活插图深深触动。这种类型的志愿者工作严重依赖分析推理作为其主要工具。作者解释了逐步将任务委托给ML工具如何逐渐削弱了来源验证、多角度考虑、假设形成和独立思考的关键过程。他指出,这导致了整个社区检测质量和关系的下降。顺便说一句,讽刺的是,OSINT代表开源情报。
我经常想到保罗·格雷厄姆(Paul Graham)的《写与不写》(在人工智能领域,他是一位权威),他以独特轻松而深刻的风格论证,写作就是思考,思考必须培养。根据格雷厄姆的说法,在AI的新世界中,只有能写好的人和根本不会写的人。
嗯,我不打算成为后者。
原因2:为什么这种风格不适合我?
问题是,我在生成的文本中感觉到一些奇怪的东西。超加工食品的气味。我感觉到一个学会了几招来满足和安抚我好奇心的魔术师的暗示。然后还有虚伪。
即使我手动编辑之前由语言模型生成的整个段落,我仍然可以感知到它的小计算器在行间咔嗒作响。(是的,它们和我们在这个房间里)。
所以目前,我根本无法也不想使用LLM进行写作,唉:文本不会是我的,因为我不会是文本。
但这并不意味着我在抬高自己,如果听起来是这样的话。
我理解并看到这些情绪对许多聊天机器人用户来说是合理的。我们都有不同的专业知识、敏感性和需求。如果你不专注于文学(例如作为出版商/作者/编辑)或者写作不是你的抱负,LLM可以成为文本形成、发展和完善过程中的一个受欢迎的助手。它可能会提高输出的质量,使其更易于理解而不妥协。除此之外,LLM可以完美地平滑升级的电子邮件交流中的尖锐边缘,或者为与难缠客户谈判提出论点,为什么不试试呢?
* 在他的书《故事》中,著名作家和讲故事讲师罗伯特·麦基(Robert McKee)解释说,我们可以同情恶棍、疯子和绝望的人,但虚伪的人对我们来说本质上是可憎的。“观众永远不会与虚伪的人保持一致,”他写道,我同意他的观点。
原因3:小心,另一边也有人!
让我这样说:如果我必须写信给普京之类的人,我会完全使用LLM,从而表达我最大的蔑视、厌恶和距离,即使在这个层面上。我毫不怀疑我会收到类似的预制回复。使用LLM进行个人通信对我来说几乎是对他人表达尊重的反面。
你不会因为证人说话自信就相信他们!
——尼科·德肯斯(Nico Dekens),关于OSINT社区衰落的文章作者。
原因4:模型不知道我们世界的模型
语言模型是现实的简化。“模型”。问题是,它们的对话被营销为现实的忠实代表。它们称之为“智能”。
LLM生成的错误信息问题有很多层面。在我看来,最糟糕的是,不准确被当作事实并被正常化。
你我都知道我们不能完全信任LLM,你可能也会小心验证它生成的内容。它不是维基百科,一个精心调整的数据库,也不是Wolfram Alpha,它有能力推导出可靠的数据并使用数学定律进行计算。
但与此同时,越来越多的用户(老年人、儿童和非技术外行)认为聊天机器人是一个无所不知的专家数据库,一种神谕。人们然后发布或使用生成的输出来证实,新的模型被它们喂养。(你可能听说过埃隆·马斯克希望通过让Grok自我清理并找出缺失的东西来解决这个问题,然后所有人类的智慧都将集中在一个地方。我们真的应该相信吗?)
我们每天都会遇到聊天机器人的不准确之处。我们越是把无所不知等同于LLM,各种在线服务就越会利用这些模型,我们就会越频繁地接触到无稽之谈。(是的,我发现自己处于尴尬的境地:我们电子商店中推荐书籍的机器人有时会推荐竞争对手的书——我们正在努力解决这个问题)。在现实世界中,后果从可笑的小错误到(有一天,毫无疑问)巨大的错误,取决于根据答案行动的人的影响力。但限制正在减少。你知道一些代理(连接到“现实世界”的自主应用程序)经常使用LLM来“控制它们的逻辑”吗?是的:逻辑,他们说。
想象一下,如果你的GPS在几乎每次旅行中都出现幻觉,决定如何掷骰子(然后同情地传达遗憾,它带你远离目的地)…大多数聊天机器人提供低可靠性的服务——考虑到观众的期望。它是一个付费工具,但它不能始终如一地引用你上传的PDF。它不能像半个世纪前的计算器那样可靠地计算。与孩子不同,它不能推断如何重新排列河内塔的轮子。另一方面,它据说会危及你的工作,因为你不太聪明。
我最近听到我的一位有影响力的朋友(我其他方面尊重他)说:“最聪明的人拒绝AI,因为他们的自我不允许他们接受一个可以做得和他们一样好的实体的存在。”我想我明白他的意思,我同意句子的第一部分:最聪明的人(我不把自己算在其中,所以这只是观察)通常是最保守的。然而,原因主要不是他们膨胀的自我(在这种情况下,他们不会是最聪明的),而是他们对数据和基于证据的支持的追求。在他们获得它之后,他们开始思考,然后才得出结论。
我从伊沃·维利奇科夫(Ivo Velitchkov)的博客中借用的一个观点是,LLM的整个输出都是幻觉。它被设计为看起来像现实的真实代表。通常,对于训练有素的事实问题,答案接近真相(因为我们最常写下真实的事情,所以它们最常从记录或记录的数据中推导出来)。但当需要概括、抽象和转移到另一个领域时,LLM经常生成一些与真相只有边际匹配或完全不匹配的东西。但它不知道这一点,它不能指出并说:这是一个80%真实的答案。如果我们人类注意到不一致,我们称之为错误或幻觉,但如果我们碰巧没有发现差异,我们很容易接受答案作为“事实”(我在这里转述凯蒂·麦克(Katie Mack))。
写作是我的克星
对于像我这样的出版商和作者来说,语言是存在的本质、生计和爱。从我的角度来看,每一个词都很重要,真正的同义词不存在,创作者的
评论总结
评论内容总结:
LLM的实用性与局限性
- 支持观点:LLM在编码、翻译、数据整理等任务中表现出色,能够提高效率。
引用:- "For things like coding LLMs are useful and DEVONThink's recent AI integrations allow me to use local models as something like an encyclopedia or thesaurus to summarize unfamiliar blocks of text."(评论3)
- "Coding, robotics, navigation of constrained data spaces such as translation, tagging, indexing, logging, parsing, data transformations… those are all strong target candidates for transformer architecture automation."(评论12)
- 质疑观点:LLM在创造性写作和艺术领域表现有限,无法提供新思想或独特风格。
引用:- "For prose (as someone who considers themselves a proficient writer), it just never seems to contribute anything useful."(评论2)
- "Creative thought is not."(评论12)
- 支持观点:LLM在编码、翻译、数据整理等任务中表现出色,能够提高效率。
AI作为工具的潜力与挑战
- 支持观点:AI是一种强大的工具,能够辅助人类完成复杂任务,尤其是在技术领域。
引用:- "AI is a tool like any other, and it can be used well or poorly, just like any other tool."(评论11)
- "Some technology is simply transformational and is just a matter of time until almost everyone comes to accept it at some level."(评论4)
- 质疑观点:AI可能会带来额外的工作负担,尤其是在处理复杂任务时,可能需要大量修正和调整。
引用:- "That's AI."(评论5)
- "I think the right balance is yet to be seen, and there will always be people who insist on more deliberate and slower practices over mass production."(评论6)
- 支持观点:AI是一种强大的工具,能够辅助人类完成复杂任务,尤其是在技术领域。
AI在艺术与写作中的应用
- 支持观点:AI可以辅助艺术创作和写作,尤其是在初稿生成和细节修正方面。
引用:- "I think LLMs will obviously fit into these existing processes."(评论6)
- "What about grammar and spelling corrections?"(评论8)
- 质疑观点:AI生成的内容缺乏独特性和深度,尤其是在需要创造性思维的领域。
引用:- "Writing is entirely different, and for some reason, generic writing even when polished (ChatGPT-esque tone) is so much more intolerable than say AI-generated imagery."(评论10)
- "It certainly doesn’t contribute any new ideas if you’re not providing them."(评论2)
- 支持观点:AI可以辅助艺术创作和写作,尤其是在初稿生成和细节修正方面。
总结:评论者对LLM和AI的看法呈现两极分化,一方面认可其在技术任务中的高效性,另一方面对其在创造性领域的表现持怀疑态度。AI被视为一种工具,但其应用范围和效果仍需进一步探索和平衡。
