文章摘要
随着AI模型和工具的普及,所谓的“提示工程”被广泛吹捧为一种神奇解决方案。然而,提示工程本质上是在尝试逆向工程一个非确定性的黑箱,其内部参数如训练集、权重、模型约束等均未知。提示工程师声称某些提示方式能带来“更好的结果”,但缺乏明确标准,且结果可能因计算资源变化而大幅波动。大多数关于提示的声称缺乏科学依据,经不起严格检验,许多所谓的“突破”在实际应用中效果有限。
文章总结
文章《Prompting LLMs is not engineering》主要批评了当前流行的“提示工程”(Prompt Engineering)概念,认为其并非真正的工程学,而更像是一种“蛇油疗法”(snake oil remedies)。以下是文章的主要内容总结:
提示工程的本质:
提示工程试图对一个非确定性的黑箱进行逆向工程,而这个黑箱的许多关键参数(如训练集、权重、模型约束、输入输出转换层、计算资源等)都是未知的。因此,提示工程的效果缺乏确定性和可预测性。提示工程的局限性:
提示工程师声称某些特定的提示方式可以带来“更好的结果”,但“更好的结果”本身缺乏明确的定义和标准。例如,即使使用了提示技巧,模型的性能也可能因为计算资源的波动而显著下降。缺乏科学依据:
大多数关于提示工程的说法缺乏科学证据,类似于“顺势疗法”(homeopathy)。经过严格的检验,许多提示工程师的宣称往往站不住脚。例如,虽然“思维链”(chain-of-thought)提示在某些特定问题上有效,但在更广泛的问题上却几乎没有作用。提示工程的演变:
随着模型的发展(如OpenAI o3和Google Gemini 2 Pro),提示工程也演变为所谓的“AI规则”和“大上下文窗口”等新概念。然而,这些方法的效果和确定性并不比之前的提示工程更好。总结:
作者认为,提示工程更像是一种基于信仰、恐惧或兴奋的“萨满仪式”,而非真正的工程学。其效果不可靠,缺乏科学依据,因此不应被视为一种严谨的技术手段。
文章通过批判提示工程的局限性和缺乏科学性,呼吁读者对其保持理性态度,不要将其过度神化。
评论总结
评论主要围绕“提示工程”(Prompt Engineering)是否属于“工程”范畴展开,观点分为支持和反对两派。
支持观点: 1. 提示工程是科学而非工程:dlevine认为,提示工程更像是科学,因为它涉及发现现有系统的属性,而不是使用工程方法构建新系统。 - "Prompting is much closer to discovering the properties of an already existing system than building something using engineering methods."
提示工程需要技能和系统性:labrador将提示工程比作艺术,但强调理解LLM的基础知识有助于获得更好的结果。
- "Prompting is more art than engineering. But understanding the basics of LLMs, which are engineered systems, helps you get better results."
提示工程是工程的一部分:rapatel0认为,提示工程应通过创建基准数据集和定义有效性指标来解决问题,这与工程的定义相符。
- "Prompt engineering, should be approached by creating benchmark datasets and defining measures of efficacy and reliability."
反对观点: 1. 提示工程不是真正的工程:VirgilShelton认为,提示工程只是一个流行词,但已经影响了真正的工程师。 - "It's just a buzz word but sadly it will (And already has) effected real engineers."
提示工程缺乏确定性:socalgal2通过实际体验指出,提示工程的结果往往不稳定,难以达到预期效果。
- "I tried for 90 minutes to get it to make something better but mostly failed."
提示工程不等于工程师:toofy强调,使用LLM生成内容并不等同于具备相关领域的专业能力。
- "Using an LLM to write a biology paper does not make that person a biologist."
中立观点: 1. 语言和定义的动态性:seanhunter指出,语言是动态的,社会对词汇的使用方式会随着时间变化,不应过于拘泥于字面定义。 - "Language is dynamic and used in context and no-one really gets to hold back the tide if society decides to use words in a particular way."
总结:评论中对提示工程是否属于工程范畴存在分歧,支持者认为它需要技能和系统性,反对者则认为它缺乏确定性和专业性。语言和定义的动态性也被提及,表明词汇的使用方式会随着社会变化而演变。