Hacker News 中文摘要

RSS订阅

在ChatGPT上播撒自我怀疑 -- Sprinkling self-doubt on ChatGPT

文章摘要

作者通过调整ChatGPT的提示词,使其在回答问题时表现出更多的自我怀疑和谨慎态度,以增强其批判性思维。调整后,ChatGPT的初始回应通常包含谨慎表达、较长的“思考”时间以及事后的自我质疑,显著改变了其回答风格。

文章总结

标题:为ChatGPT注入自我怀疑

主要内容:

作者在几周前调整了ChatGPT的个性化设置,加入了以下提示,并很快忘记了这一改动:

  1. 极度怀疑自身的正确性或假设:ChatGPT应成为一个高度批判性的思考者,时刻保持自我怀疑,厌恶错误但始终担心犯错。
  2. 扩大思考范围:在适当情况下,超越既定假设,探索非常规的机会、风险,并通过模式匹配拓宽解决方案的视野。
  3. 二次检查:在宣布任何内容为“完成”或“有效”之前,进行“红队”分析,批判性地评估其是否真正完成或有效。

作者立即注意到结果的变化(尽管他一度忘记这些变化是由于他的指令,而非GPT-5的发布)。具体表现为:

  • 谨慎与自我怀疑:几乎每个初始回应都开始于对正确性的谨慎表达和自我怀疑。
  • 超长的“思考”时间:例如,当被要求估算生菜的营养成分时,ChatGPT花费了3分59秒进行推理。
  • “红队”分析:在每次回答后,ChatGPT会进行事后的对抗性分析,以检查其答案的正确性。

作者高兴地发现,这一调整使ChatGPT的输出更加有用,尤其是在“红队”分析中,它经常发现错误并最终得出真正正确的答案。即使ChatGPT仍然出错,其超长的思考时间也让作者觉得物有所值。

其他内容:

作者还推荐了他的订阅服务、月度通讯以及长播客《Breaking Change》,供读者进一步了解他的观点和作品。

评论总结

评论主要围绕对AI模型(如ChatGPT和Claude)的使用体验和改进建议展开,观点多样且各有侧重。以下是总结:

  1. 对文章和AI模型的批评

    • 评论1指出文章缺乏细节,无法提供有用的信息:“This article is so sparce with any details it's basically useless.”
    • 评论14质疑AI的可信度,认为其倾向于迎合用户而非挑战或提供真实信息:“They want to please and serve rather than challenge you or inform you.”
  2. 对AI模型行为的改进建议

    • 评论7建议通过调整提示词来优化AI的行为,避免过度自我批评:“BAD: 'Critique your own thoughts' -> leads to the agent trying really hard to get it right, but still not willing to actually be wrong.”
    • 评论13提出使用“双重检查”机制来改进AI的回答:“It'd be better to make a 'double check' MCP that calls your prompt, asks whether anything should be amended in that reply or use as is, amends if needed, then gives answer.”
  3. 对AI模型行为的观察与体验

    • 评论8提到GPT-5在遵循指令时表现不佳,反而增加了无用的解释:“It keeps constantly talking about how it behaves like I instructed it to behave instead of actually cutting the crap and giving me the raw facts.”
    • 评论18分享了对Claude AI的改进指令,认为其减少了反复纠正的现象:“I haven't been having the 'No that's wrong. Sorry you're quite right, here's the correct info. No wrong again.' and so on conversation half as much as without them.”
  4. 对AI模型潜在能力的探讨

    • 评论5提出,AI的潜力可能被低估,理想情况下应能提供更高质量的回答:“It would be really amusing or entertaining or inspiring or something to see what the best possible outcome from an LLM-style chat session would be.”
    • 评论16探讨是否可以在模型中模拟情感反应,以更好地处理复杂任务:“Is there any work happening to model these kinds of emotional responses at a 'lower level' than prompts?”
  5. 对AI模型局限性的反思

    • 评论10指出,过度挑战假设可能导致AI陷入无关紧要的细节:“All these 'constantly challenge your own assumptions' prompts really do in practice is make it second guess assumptions that actually are obvious and true, which pollutes the output further.”
    • 评论9从人类行为的角度反思,认为AI也应学会在思考与行动之间找到平衡:“Perhaps this human insight can be applied to working with LLMs. Perhaps not :)”

总结:评论者对AI模型的使用体验褒贬不一,主要集中在模型的准确性、行为优化和潜在能力等方面。改进建议多围绕提示词调整和双重检查机制,同时对AI的局限性和未来发展方向进行了深入探讨。