Hacker News 中文摘要

文章摘要

Redd-Archiver是一个基于PostgreSQL的存档生成工具，可将Reddit等链接聚合平台的内容转换为可浏览的HTML存档。该项目使用Python 3.7+开发，需PostgreSQL支持，采用Unlicense许可协议，当前版本为1.0.0，支持多平台运行。

文章总结

GitHub项目：Redd-Archiver - 多平台内容归档工具

项目概述

Redd-Archiver是一个基于PostgreSQL的归档生成器，能够将Reddit、Voat和Ruqqus等链接聚合平台的内容转换为可浏览的HTML存档。该项目具有以下核心特点： - 多平台支持：同时处理Reddit（.zst JSON格式）、Voat（SQL转储）和Ruqqus（.7z JSON格式）的数据 - 离线浏览：生成静态HTML文件，支持按评分、评论数或日期排序的索引页 - 全文搜索：通过PostgreSQL实现高性能全文检索（需Docker部署） - 移动优先设计：响应式布局，无JavaScript依赖 - 企业级性能：采用PostgreSQL全文索引，内存占用恒定（4GB起）

数据支持

| 平台 | 数据量 | 状态 | |------------|----------------|------------| | Reddit | 23.8亿条帖子 | 完整支持 | | Voat | 381万条帖子 | 完整支持 | | Ruqqus | 50万条帖子 | 完整支持 |

核心功能

技术架构
- 模块化设计（18个专用模块）
- PostgreSQL后端，支持大规模数据处理
- REST API提供30+端点
- 包含29个AI集成工具（MCP服务器）
部署选项
- 离线浏览（零配置）
- Tor隐藏服务（2分钟部署）
- HTTPS生产环境（15分钟配置）
- GitHub Pages静态托管
特色功能
- WCAG合规的无障碍设计
- 自动主题切换（明/暗模式）
- SEO优化（完整元标签和站点地图）
- 实时进度跟踪和数据库监控

快速开始

演示地址：在线示例存档
部署指南：提供5分钟本地测试和15分钟生产环境配置方案
数据准备：需预先下载平台数据集（Reddit数据约3.28TB）

项目意义

该项目致力于解决互联网内容消失的问题，通过分布式存档网络保存有价值的社区讨论。开发者呼吁用户： 1. 下载并镜像现有数据集 2. 部署自己的存档实例 3. 提交新的数据源建议

技术规格

开发语言：Python 3.7+
数据库：PostgreSQL 12+
许可证：Unlicense（公共领域）
最新版本：v1.0.0

支持项目

开发者接受比特币和门罗币捐赠，用于维持服务器成本和持续开发。

该项目采用模块化架构，包含专门的HTML生成模块、数据库处理模块和监控系统，适合研究人员、社区管理者和数字档案工作者使用。

评论总结

以下是评论内容的总结：

数据存档与获取
- 用户提供Reddit数据存档的torrent链接（评论1："Data is available via torrent in this section"）
- 建议与已下架的Apollo应用整合以恢复丢失内容（评论2："get back a slice of time that is forever lost now"）
存档工具的需求与问题
- 希望有插件能自动恢复被删除或篡改的评论（评论3："replaces deleted comments...with the original context"）
- 指出当前工具存在技术问题，如缺少示例文件和卷配置错误（评论8："no .env.example file...issues with the mentioned volumes"）
存档的用途与争议
- 幽默猜测数据可能被用于训练AI模型（评论4："Hacker News...to train their models on how to become effective reddit trolls"）
- 质疑存档内容的道德性，如涉及极端主义平台（评论5："Gross. Why...Reddit For Neonazis?"）
- 提问是否向内容创作者付费（评论7："Did you pay all the people who created its content?"）
扩展应用场景
- 用户计划对TikTok视频进行类似存档和AI分类（评论6："use AI to tag and categorize the videos to scroll locally"）

展示 HN：自托管版 Reddit——23.8 亿帖子，离线可用，永久属于你 -- Show HN: Self-host Reddit – 2.38B posts, works offline, yours forever