文章摘要
作者在Pocket即将关闭之际,迁移了自己保存的近900篇文章,并利用xsv工具对这些数据进行了快速分析。文章标题、URL、添加时间和状态等信息被提取出来,展示了最早和最晚的添加日期。作者还提到受到Simon Willison的geoguessing挑战启发,思考如何利用o3工具对这些数据进行进一步探索。
文章总结
主要内容总结
标题: 我用o3从保存的Pocket链接中分析自己
文章链接: I used o3 to profile myself from my saved Pocket links
发布时间: 2025年7月7日
主要内容:
背景:
- Pocket即将关闭,作者在迁移保存的文章时发现,自己近7年来保存了近900篇文章,这些数据成为了分析个人兴趣的宝贵资源。
数据分析:
- 作者使用
xsv工具对CSV文件进行了快速分析,提取了文章的标题、URL、保存时间、标签和状态等信息。 - 数据显示,最早的文章保存于2018年7月12日,最新的文章保存于2025年6月26日。
- 作者使用
实验:
- 作者受到Simon Willison的启发,决定使用o3(一个AI工具)来分析自己保存的文章列表,以推断出个人特征。
- 作者向o3提供了保存的文章列表,并要求其根据这些数据推断出诸如年龄、性别、地理位置、教育水平、职业、收入、政治倾向等多方面的信息。
结果:
- o3根据文章内容推断出作者可能是一个30-40岁的男性,居住在弗吉尼亚州沿海地区,拥有计算机科学学位,从事高级软件工程师工作,收入在15万至22万美元之间,已婚并有3-4个年幼的孩子。
- o3还推断出作者的政治倾向、风险承受能力、学习风格、信息消费习惯、生活阶段、季节性兴趣变化等。
- o3的推断与作者的真实情况高度吻合,甚至有些细节让作者感到惊讶。
反应与启示:
- 作者对o3的推断结果表示认可,认为这些分析非常准确。
- 作者指出,o3在处理直接粘贴的CSV数据时表现更好,而将CSV文件作为附件上传时,o3会过于专注于使用Python进行数据分析,导致推断结果不够理想。
- 作者认为,这种技术的开放性意味着几乎任何人都可以使用类似工具进行个人数据分析,这具有重要的社会意义。
后续计划:
- 作者计划利用o3的分析结果来构建一个个人内容推荐系统。
图片: 无
脚注: 1. 作者已迁移到Wallabag,并从Inoreader切换到FreshRSS,对自托管服务的使用感到满意。 2. xsv是作者最喜欢的CSV数据分析工具,尽管它已停止维护,但功能已相当完善。 3. o3的推断结果大部分准确,但作者删除了关于“头皮屑治疗”的部分。
评论总结
LLM用于个人资料分析的潜力
- 评论2:用户使用LLM分析在线对话历史,以识别潜在的“concern trolls”(假装支持某群体但暗中破坏的人)。LLM虽然不能做出最终判断,但可以快速总结信息。
- 评论3:用户编写脚本,通过HN用户的提交和评论历史推断其个人资料,包括地理位置、政治倾向、职业等,尽管准确性未知,但展示了LLM在这方面的潜力。
标题的误导性
- 评论4:标题暗示o3在背后使用用户保存的链接进行个人资料分析,但实际上o3只是按照提示执行任务。
- 评论6:标题“o3 used my saved Pocket links to profile me”具有误导性,建议改为“Profiling myself from my Pocket links with o3”。
LLM在数据整理中的应用
- 评论7:用户考虑使用LLM整理大量未关闭的浏览器标签,希望将其导出为CSV文件以便清理。
- 评论15:建议使用AI/NLP对保存的链接进行分类,以便删除不再感兴趣的内容。
隐私与广告商的担忧
- 评论9:用户担心AI聊天机器人会将其兴趣、情感和脆弱性等详细资料提供给广告商,增强已有强大实体的力量。
- 评论11:猜测所有拥有用户数据的平台都在使用LLM生成用户资料,以便为广告商服务。
不同LLM的表现对比
- 评论10:用户对比了o3、Gemini 2.5 Pro和Opus 4在分析其Pocket存档时的表现,Opus 4在预测年龄、地理位置等方面表现更准确,但在职业预测上仍有偏差。
其他工具与实验
- 评论12:用户开发了一个工具,用于分析和“调侃”HN账户的个人资料,认为这既有趣又偶尔令人害怕。
- 评论18:用户开发了一款名为Eyeball的AI书签和笔记应用,集成了与书签和笔记对话的功能,并计划推出类似个人资料分析的“每周总结”。
数据迁移与开源工具
- 评论16:用户从Pocket迁移到开源工具Linkwarden,并编写了Python包以简化迁移过程。
技术问题与成本
- 评论14:指出在iOS Safari上代码块的字体大小不一致,这是一个常见问题。
- 评论17:用户询问通过API进行此类分析的成本。
总结:评论主要围绕LLM在个人资料分析、数据整理和隐私问题上的应用展开,同时讨论了标题的误导性、不同LLM的表现对比以及相关工具的开发和使用。