文章摘要
Parqeye是一个可以在终端中直接查看Parquet文件内容的工具,由kaushiksrini开发并托管在GitHub上。该项目页面还展示了GitHub的各项功能,如Copilot、Actions等。
文章总结
Parqeye:终端直接查看Parquet文件内容的工具
项目简介
Parqeye是一个开源工具,允许用户直接在终端中快速查看Parquet文件的内容、结构和元数据。该项目由开发者kaushiksrini维护,采用MIT许可证,目前获得197个星标和3个分支。
核心功能
- 交互式数据浏览:通过表格形式查看数据,支持键盘导航
- 结构分析:检查列类型、嵌套结构和字段定义
- 元数据查看:显示文件版本、创建者、编码统计等信息
- 行组统计:分析行组级别的元数据和数据分布
- 多标签界面:支持在可视化、结构、元数据和行组视图间快速切换
安装方式
1. 直接下载:从发布页面获取最新版本
2. 源码编译:通过cargo build --release命令构建
3. Cargo安装:Rust用户可直接运行cargo install parqeye
使用示例
bash
parqeye <parquet文件路径>
未来计划
- 实现Parquet文件的流式加载
- 增加按值过滤列功能
- 支持云端文件读取(如s3://路径)
致谢
项目灵感来源于csvlens工具。
(注:原文中的GitHub导航菜单、文件提交历史等与技术主题无关的内容已精简,重点保留了工具的功能说明和使用方法。)
评论总结
以下是评论内容的总结:
高度认可与感谢
多位用户表达了对工具的赞赏和感谢,认为它解决了长期存在的痛点。- "thank you so much! this was an annoyance of mine for so long." (WorldPeas)
- "It’s crazy how long we’ve gone without a tool like this. This is huge." (papers1010)
功能需求与改进建议
- 多文件/数据集支持:用户希望工具能扩展到支持目录或S3前缀,分析多文件的元数据和统计信息。
- "Do you have plans for a 'dataset mode' that takes a dir/S3 prefix?" (bigshik)
- 集成DuckDB:建议集成DuckDB以支持直接在UI中运行查询。
- "Can DuckDB be included in the tool, so you can run queries directly from the UI?" (lolive)
- 性能与兼容性:用户提到二进制文件体积较大(78MB-90MB)和glibc兼容性问题。
- "must the Windows binary really be 78MB?" (lolive)
- "90MB for a TUI tool... I wonder what the bulk of that is?" (MayeulC)
- 多文件/数据集支持:用户希望工具能扩展到支持目录或S3前缀,分析多文件的元数据和统计信息。
与其他工具的比较
- 用户提到类似工具(如VisiData、nail-parquet、DuckDB)的优缺点,认为当前工具在交互性和元数据展示上更优。
- "VisiData is great to not only peek into the file but filter it, sort..." (alentred)
- "Yours looks much better for your use case, but fwiw you can do it in a single command with duckdb too." (jasonjmcghee)
- 用户提到类似工具(如VisiData、nail-parquet、DuckDB)的优缺点,认为当前工具在交互性和元数据展示上更优。
问题反馈
- 有用户报告工具在处理DuckDB生成的geoparquet文件时失败。
- "failed for me when reading a geoparquet file created using duckdb." (banga)
- 有用户报告工具在处理DuckDB生成的geoparquet文件时失败。
其他观点
- 用户提到Parquet在Excel中缺乏支持是广泛采用的障碍。
- "What is really missing for parquet's wide adoption is support in Excel." (joelthelion)
- 部分用户推荐了其他工具(如JSONL Viewer Pro),并分享了使用场景。
- "I built JSONL Viewer Pro after repeatedly crashing VS Code..." (hilti)
- 用户提到Parquet在Excel中缺乏支持是广泛采用的障碍。
总结:评论普遍认可工具的价值,同时提出了功能扩展、性能优化和兼容性改进的需求,并与其他工具进行了对比。