文章摘要
文章作者表达了对AI工具如GPT的复杂感受,虽然这些工具在某些特定任务上表现出色,如寻找精确词汇或修复简单代码错误,但在处理更复杂的问题时往往效果不佳。作者尝试使用这些工具后感到失望,认为它们无法替代自己的工作效率,甚至怀疑这些工具的实际应用价值。尽管AI技术发展迅速,作者仍感到自己的技能可能被淘汰,但同时也认识到这些工具的局限性。
文章总结
标题:GPTs与落后感
每当我读到关于“用AI编程”的博客文章,或是看到新模型如何自动编写整个库的酷炫功能时,我总觉得自己落后了,仿佛错过了一个强大且有用的工具,而我的技能很快就要过时了。
于是,我尝试了各种模型和工具,但结果都令人失望。说实话,很难相信人们真的能用这些工具完成工作,因为我花了几个小时(甚至还没接近完成任务)后,发现我自己在25分钟内就能搞定。
我告诉自己:“学习使用Vim花了很长时间,但最终是值得的。”然而,我在第一天就能(慢慢地)用Vim写文本。而我在GPT上花了一整天,却什么有价值的东西都没产出。
GPT在找到一个句子中确切的词时表现不错。它们出奇地擅长为Python函数找到准确的类型注解。它们还能在我复制粘贴到GPT的单个函数中发现细微的错误。但除了编写简单函数之外,GPT总是生成无用的垃圾。很多时候,它们通过导入一个不存在的库来解决大问题,并调用一个处理大部分逻辑的函数。前几天,ChatGPT告诉我:“如果你不想依赖任何库,你得自己实现。”但它实际上无法实现必要的代码。大段代码中隐藏着许多逻辑错误,当它们修复一个错误时,又会引入另一个。
然后,我又在Hacker News上看到一篇帖子,讲述某人如何使用GPT并取得了巨大成果。我一部分想认为这些文章是为了制造噱头而编造的,但现实是,其中一些文章是由知名开发者撰写的,他们在业界已有十多年的经验。有些结果甚至可以在网上公开查看。
我处于一种无法将自己的结果与他人结果调和的状态。我听到人们说:“这把锤子坚不可摧。”但当我拿起它时,它只是折纸:用纸做的,复杂、精致、看起来很酷,但我甚至无法用它敲打一个番茄。
—— § ——
评论总结
评论内容总结:
LLM的使用效果不稳定
- PaulHoule指出,LLM有时能生成高质量的代码,有时则表现不佳,关键在于如何引导和修正。
- "It works sometimes and fails other times."
- "The code quality was just great, as good as if I wrote it, maybe better."
- siscia也表示,虽然有时能生成有用的代码,但也会浪费时间在微调上。
- "I did have some great luck producing quite useful and impactful code. But also lost time chasing tiny changes."
- PaulHoule指出,LLM有时能生成高质量的代码,有时则表现不佳,关键在于如何引导和修正。
学习曲线与提示技巧的重要性
- calrain强调,使用LLM需要时间学习如何构建提示和引导AI,最终能生成远超个人能力的代码。
- "It takes a while to learn using an LLM and get value from it."
- "You will master it and be able to write secure, fast code far beyond what you could have done by yourself."
- neom也提到,随着使用经验的增加,能够更好地预测和控制LLM的输出。
- "How you prompt them really matters, and that takes time to learn."
- calrain强调,使用LLM需要时间学习如何构建提示和引导AI,最终能生成远超个人能力的代码。
模型与工具的选择影响结果
- dumbmrblah和CityOfThrowaway都认为,使用不同的模型和工具会带来截然不同的结果。
- "You’re going to get vastly different responses if you’re using Opus versus 4o."
- "Using Claude Code in your actual repo is insanely useful."
- jtfrench指出,ChatGPT在编写复杂代码时表现不佳,而Gemini Pro 2.5则更为有效。
- "ChatGPT is the worst for writing shippable code beyond a single function."
- dumbmrblah和CityOfThrowaway都认为,使用不同的模型和工具会带来截然不同的结果。
LLM在复杂项目中的局限性
- 3vidence和Barrin92认为,LLM在处理大规模代码库或新技术时表现有限。
- "LLMs / agents really do not seem adequate working on absolutely massive codebases."
- "Can anybody show me their coding agent workflow on a 50k LOC C codebase?"
- nurettin强调,LLM无法替代专业知识,生成的代码需要大量手动修正。
- "AI assistance can’t really do what you can’t. Sure, you can force it, but the result will be a discardable mess."
- 3vidence和Barrin92认为,LLM在处理大规模代码库或新技术时表现有限。
LLM的实际应用价值
- avalys和allenu分享了LLM在节省时间和生成原型代码方面的实际价值。
- "It saved me from a bunch of tedious work that I don’t enjoy anyway."
- "It saves so much time with boilerplate code that I would’ve had to type out by hand."
- Ezhik提到,LLM生成的代码虽然不完美,但能帮助克服“空白页”问题。
- "It’s much easier to trick myself into correcting the poor code Claude generates than it is to start writing code from a blank slate."
- avalys和allenu分享了LLM在节省时间和生成原型代码方面的实际价值。
对LLM的质疑与批评
- dmezzetti和throwawa14223认为,LLM的实际价值被夸大,甚至可能带来负面效果。
- "A lot of this is classic gaslighting."
- "It isn’t zero value it is actually a negative value as the time it takes is an opportunity cost."
- Barrin92质疑LLM在开源项目中的实际贡献,认为其能力被过度宣传。
- "Why aren’t the AI geniuses fixing these? Nobody has ever any actual code to show."
- dmezzetti和throwawa14223认为,LLM的实际价值被夸大,甚至可能带来负面效果。
对LLM的积极态度与探索
- zmmmmm和lsy建议,不要被FOMO驱动,而是根据兴趣探索LLM的潜力。
- "Don’t go into with it with the expectation of 'Unless it vibe coded and entire working application for me on it’s a failure'."
- "People shouldn’t worry about getting 'left behind' because influencers and bloggers are overindexing on specific tech."
- andrewstuart对LLM的负面评价表示困惑,认为其实际价值被低估。
- "So weird that people use these tools and think they essentially useless."
- zmmmmm和lsy建议,不要被FOMO驱动,而是根据兴趣探索LLM的潜力。
总结:评论中对LLM的使用效果、学习曲线、模型选择、复杂项目中的局限性、实际应用价值、质疑与批评以及积极态度等方面进行了广泛讨论。尽管LLM在某些场景下表现出色,但其效果不稳定,且需要专业知识进行修正。同时,不同模型和工具的选择对结果有显著影响,而LLM在复杂项目中的能力仍受到质疑。