Hacker News 中文摘要

RSS订阅

Handy – 免费开源语音转文字应用 -- Handy – Free open source speech-to-text app

文章摘要

Handy是一款免费开源、可扩展的离线语音转文字应用,支持完全离线运行。

文章总结

Handy:一款完全离线的开源语音转文字应用

项目简介
Handy 是一款基于 Tauri(Rust + React/TypeScript)开发的跨平台桌面应用,提供简单、隐私优先的语音转录功能。用户只需按下快捷键说话,即可将语音转换为文字并输入到任何文本字段,全程无需将音频上传至云端。

核心特点
- 免费开源:代码公开,支持社区扩展和贡献。
- 隐私保护:所有语音处理均在本地完成,无需联网。
- 跨平台支持:兼容 macOS(Intel/Apple Silicon)、Windows 和 Linux。
- 多模型选择
- Whisper 模型(支持 GPU 加速):包括 Small/Medium/Turbo/Large 等版本。
- Parakeet V3:CPU 优化的轻量模型,支持自动语言检测。

使用场景
1. 按下快捷键开始录音。
2. 说话时保持快捷键激活。
3. 释放快捷键后,Handy 通过本地模型转录语音。
4. 转录文本自动粘贴到当前应用。

技术架构
- 前端:React + TypeScript + Tailwind CSS。
- 后端:Rust 处理系统集成、音频和机器学习推理。
- 核心库whisper-rs(语音识别)、cpal(音频I/O)、vad-rs(语音活动检测)等。

安装与开发
- 用户:从发布页官网下载安装。
- 开发者:参考 BUILD.md 搭建环境。

已知问题
- Whisper 模型兼容性:部分系统配置下可能崩溃(需开发者协助修复)。
- Linux 支持:Wayland 需额外工具(如 wtype),X11 推荐 xdotool

未来计划
- 增强调试日志、优化 macOS 快捷键、改进设置管理。
- 添加匿名数据分析功能(用户可选)。

贡献与支持
- 欢迎通过提交 PR 或反馈问题参与开发。
- 项目受 MIT 许可保护,详情见 LICENSE

项目链接
- 代码库:https://github.com/cjpais/Handy
- 官网:https://handy.computer

“Handy 或许不是最完美的语音转文字工具,但你可以让它成为最适合你的那一个。”

评论总结

以下是评论内容的总结:

正面评价

  1. 产品体验优秀

    • "The Parakeet V3 model is really great!"(Parakeet V3模型非常棒!)
    • "Use it daily. Looks and works great."(每天使用,外观和功能都很棒。)
  2. 本地化与免费优势

    • "Super fast, super simple, doesn’t get in my way and it’s constantly updated."(超级快、超级简单,不碍事且持续更新。)
    • "It’s incredibly fast on my MacBook m1 air and more accurate that the native speech to text."(在我的M1 MacBook上速度极快,比原生语音转文本更准确。)
  3. 对特定用户群体的价值

    • "I have dystonia which often stiffens my arms... TTS apps like SuperWhisper have proven to be very helpful."(我有肌张力障碍,TTS应用对我非常有帮助。)
    • "It was the last app I needed to go Linux full-time."(这是我完全转向Linux所需的最后一个应用。)

负面或改进建议

  1. 功能缺失与兼容性问题

    • "Crashes on Tahoe 26.3 Betq 1 :("(在Tahoe 26.3 Betq 1上崩溃。)
    • "On a M4 Macbook Air, there was enough lag to make it unusable."(M4 MacBook Air上延迟严重,无法使用。)
  2. 与其他产品的对比

    • "Has anyone compared this with OpenWhispr already?"(有人将其与OpenWhispr对比过吗?)
    • "macOS has Dictation built-in... am I missing something?"(macOS自带听写功能,我是否忽略了什么?)
  3. 高级功能需求

    • "The generated text should not be just a verbatim copy... it should elaborate."(生成的文本不应只是逐字记录,而应根据上下文扩展。)
    • "A settings option to keep no recording history at all would be terrific."(希望增加完全不留录音记录的设置选项。)

其他讨论

  1. 多语言支持

    • "Did this thing work well with other languages than english?"(支持英语以外的其他语言吗?)
  2. 隐私问题

    • "Is it deployed locally or does it send data to your servers?"(数据是本地处理还是上传到服务器?)
  3. 命名冲突

    • "There's a slightly awkward naming overlap with an existing product."(与现有产品名称略有冲突。)

总结显示,用户普遍赞赏产品的本地化、速度和易用性,但也提出了功能改进、兼容性和隐私方面的关切。