Hacker News 中文摘要

RSS订阅

法布里斯·贝拉德的TS压缩工具(2024) -- Fabrice Bellard's TS Zip (2024)

文章摘要

ts_zip是一款基于大语言模型的文本压缩工具,相比传统压缩工具能实现更高的压缩比,但需要GPU支持且速度较慢。目前仅支持文本文件,主要用于英文内容,尚处于实验阶段,不同版本间不保证兼容性。

文章总结

基于大语言模型的文本压缩工具ts_zip

ts_zip是一款利用大语言模型实现文本压缩的实用工具,其压缩率显著高于传统压缩工具。该工具由Fabrice Bellard开发,具有以下特点:

核心特性: 1. 硬件要求:需配备GPU(显存至少4GB)才能获得合理速度 2. 性能表现:在RTX 4090上压缩/解压速度最高达1MB/s 3. 文件支持:专为文本文件优化(支持英文及其他语言,包括源代码),对二进制文件效果有限 4. 实验性质:各版本间不保证向后兼容性

压缩效果对比(比特/字节): - alice29.txt:xz(2.551) vs tszip(1.142) - enwik8:xz(1.989) vs tszip(1.106) - linux内核包:xz(1.441) vs ts_zip(1.021)

技术实现: 1. 采用RWKV 169M v4语言模型(8位参数量化,BF16浮点运算) 2. 通过预测下一标记概率配合算术编码器实现压缩 3. 确定性计算保证跨硬件/配置的解压一致性

版本下载: - Linux版:tszip-2024-03-02.tar.gz - Windows版:tszip-2024-03-02-win64.zip

注:该工具另有针对短消息优化的衍生版本ts_sms。

评论总结

总结评论内容如下:

  1. 对技术成就的认可

    • 多位评论者赞赏Fabrice Bellard在文本压缩领域的突破性工作,认为他超越了之前的作品NNCP。
    • 引用:"Bellard finally working with his true colleague."
    • 引用:"So did beat his own leading program from 2019, nncp, finally."
  2. 对压缩方法的质疑

    • 有评论指出压缩结果未包含模型和运行代码的大小,可能不符合基准测试规则。
    • 引用:"'compressed size' does not seem to include the size of the model and the code to run it."
    • 另有评论对压缩后的数据准确性表示担忧,担心多次压缩可能导致信息丢失。
    • 引用:"I would like to know what deviations are in the output... Sort of like misremembering a story."
  3. 与其他技术的比较

    • 有评论提到该工具在enwik8测试中表现优异,但在enwik9中不如其他程序。
    • 引用:"Looks like it beats everything in the large text compression benchmark for enwik8, but loses to several programs for enwik9."
    • 也有评论认为其压缩率仅比xz高2-3倍,性价比不高。
    • 引用:"so barely 2 or 3 times better than xz... not really worth it"
  4. 技术应用的延伸讨论

    • 评论者探讨了LLM压缩与信息理论、智能甚至AGI的潜在关联。
    • 引用:"Shannon's foundational insight was that information is surprise."
    • 引用:"compression is related to intelligence and even AGI."
    • 另有评论提到类似技术的其他应用,如隐写术。
    • 引用:"Another fun application of combining LLMs with arithmetic coding is steganography."
  5. 幽默与创意

    • 部分评论以幽默方式表达对技术的期待或命名建议。
    • 引用:"Hopefully :-)"(关于解压缩功能)
    • 引用:"I propose the name tokables for the compressed data..."