Hacker News 中文摘要

RSS订阅

DuckDB 1.5.2 —— 可在笔记本、服务器及浏览器中运行的SQL数据库 -- DuckDB 1.5.2 – SQL database that runs on laptop, server, in the browser

文章摘要

DuckDB发布了1.5.2版本,这是一个包含错误修复和性能改进的补丁版本,同时新增对DuckLake v1.0湖仓格式的支持。

文章总结

DuckDB 1.5.2版本发布公告

核心内容
DuckDB团队于2026年4月13日发布了1.5.2版本,这是一个包含错误修复和性能优化的补丁版本,同时新增对DuckLake v1.0湖仓格式的支持。

主要更新亮点:

  1. DuckLake湖仓格式

    • 推出稳定版DuckLake v1.0,支持数据内联(data inlining)、排序表、桶分区及兼容Iceberg的Puffin文件删除缓冲区。
    • 详细特性可参考DuckLake官方博客
  2. Iceberg扩展增强

    • 新增支持GEOMETRY数据类型、ALTER TABLE语句、分区表的更新/删除操作,以及截断和桶分区功能。
    • DuckDB工程师Tom Ebergen在Iceberg峰会分享了相关技术经验。
  3. Jepsen测试初步结果

    • Jepsen合作进行 robustness 测试,发现并修复了主键冲突时的INSERT INTO语句问题。
  4. 新版在线Shell

    • 重构后的WebAssembly Shell支持文件存储管理(上传、下载、创建),内置示例数据集,可通过.files.help命令操作。
  5. 性能基准提升

    • 在Ubuntu 26.04 beta环境下,TPC-H综合性能得分提升约10%(从778,041升至854,676)。

近期活动预告:

  • DuckCon #7:6月24日于阿姆斯特丹举行,开放演讲提交和免费注册。
  • AI Council演讲:5月12日,Hannes Mühleisen将揭秘DuckDB的“下一代重大功能”。
  • Ubuntu峰会演讲:5月底探讨DuckDB性能优化。

获取方式
用户可通过安装页面升级,完整更新日志详见GitHub发布页

(注:原文中的导航菜单、图片链接及重复内容已精简,保留核心功能更新和活动信息。)

评论总结

以下是评论内容的总结,平衡呈现不同观点:

正面评价: 1. 性能与易用性受到高度赞扬
- "duckdb is a generational technology innovation... insanely good ergonomics, great performance" (评论1)
- "Data engineer here... It's amazing. For most of the data sizes we deal with it's perfect" (评论6)

  1. 多场景适用性
    • 支持Excel集成:"runs in Excel via xlwings... allows scripts, custom functions" (评论4)
    • 处理大规模数据:"lifesaver for 70GB of Cloudflare logs" (评论8)

负面评价:
1. 内存管理问题
- "unusable due to out of memory errors with billion-row dataset... Far too flakey for production" (评论7)
- 需手动调优:"needs manual tuning... memory management is the job of the db" (评论7)

  1. 功能局限性争议
    • 质疑SIMD支持:"Did they finally enable full SIMD?" (评论5)
    • 对数据库定位的困惑:"Is it a database or a CLI tool?" (评论10)

中立/疑问观点:
1. 实际用例探讨
- "I use it for CSV/Parquet transformations... Are people doing something else?" (评论9)
- 询问衍生技术:"Any opinions on DuckLake?" (评论2)

  1. 技术验证
    • 性能测试引用:"Benchmarked DuckDB 1.5.2 with Java JDBC UDF support" (评论3)

总结:DuckDB因轻量、高性能和跨平台集成广受好评,但内存限制和定位模糊性引发争议,部分用户对其实际应用场景存疑。