文章摘要
Redd-Archiver是一个基于PostgreSQL的存档生成工具,可将Reddit等链接聚合平台的内容转换为可浏览的HTML存档。该项目使用Python 3.7+开发,需PostgreSQL支持,采用Unlicense许可协议,当前版本为1.0.0,支持多平台运行。
文章总结
GitHub项目:Redd-Archiver - 多平台内容归档工具
项目概述
Redd-Archiver是一个基于PostgreSQL的归档生成器,能够将Reddit、Voat和Ruqqus等链接聚合平台的内容转换为可浏览的HTML存档。该项目具有以下核心特点: - 多平台支持:同时处理Reddit(.zst JSON格式)、Voat(SQL转储)和Ruqqus(.7z JSON格式)的数据 - 离线浏览:生成静态HTML文件,支持按评分、评论数或日期排序的索引页 - 全文搜索:通过PostgreSQL实现高性能全文检索(需Docker部署) - 移动优先设计:响应式布局,无JavaScript依赖 - 企业级性能:采用PostgreSQL全文索引,内存占用恒定(4GB起)
数据支持
| 平台 | 数据量 | 状态 | |------------|----------------|------------| | Reddit | 23.8亿条帖子 | 完整支持 | | Voat | 381万条帖子 | 完整支持 | | Ruqqus | 50万条帖子 | 完整支持 |
核心功能
技术架构
- 模块化设计(18个专用模块)
- PostgreSQL后端,支持大规模数据处理
- REST API提供30+端点
- 包含29个AI集成工具(MCP服务器)
部署选项
- 离线浏览(零配置)
- Tor隐藏服务(2分钟部署)
- HTTPS生产环境(15分钟配置)
- GitHub Pages静态托管
特色功能
- WCAG合规的无障碍设计
- 自动主题切换(明/暗模式)
- SEO优化(完整元标签和站点地图)
- 实时进度跟踪和数据库监控
快速开始
- 演示地址:在线示例存档
- 部署指南:提供5分钟本地测试和15分钟生产环境配置方案
- 数据准备:需预先下载平台数据集(Reddit数据约3.28TB)
项目意义
该项目致力于解决互联网内容消失的问题,通过分布式存档网络保存有价值的社区讨论。开发者呼吁用户: 1. 下载并镜像现有数据集 2. 部署自己的存档实例 3. 提交新的数据源建议
技术规格
- 开发语言:Python 3.7+
- 数据库:PostgreSQL 12+
- 许可证:Unlicense(公共领域)
- 最新版本:v1.0.0
支持项目
开发者接受比特币和门罗币捐赠,用于维持服务器成本和持续开发。
该项目采用模块化架构,包含专门的HTML生成模块、数据库处理模块和监控系统,适合研究人员、社区管理者和数字档案工作者使用。
评论总结
以下是评论内容的总结:
数据存档与获取
- 用户提供Reddit数据存档的torrent链接(评论1:"Data is available via torrent in this section")
- 建议与已下架的Apollo应用整合以恢复丢失内容(评论2:"get back a slice of time that is forever lost now")
存档工具的需求与问题
- 希望有插件能自动恢复被删除或篡改的评论(评论3:"replaces deleted comments...with the original context")
- 指出当前工具存在技术问题,如缺少示例文件和卷配置错误(评论8:"no
.env.examplefile...issues with the mentioned volumes")
存档的用途与争议
- 幽默猜测数据可能被用于训练AI模型(评论4:"Hacker News...to train their models on how to become effective reddit trolls")
- 质疑存档内容的道德性,如涉及极端主义平台(评论5:"Gross. Why...Reddit For Neonazis?")
- 提问是否向内容创作者付费(评论7:"Did you pay all the people who created its content?")
扩展应用场景
- 用户计划对TikTok视频进行类似存档和AI分类(评论6:"use AI to tag and categorize the videos to scroll locally")