wehale/epstein-files
GitHub: wehale/epstein-files
一个用于下载并验证公开可获取的埃普斯坦文件集合的脚本工具,不存储原始 PDF。
Stars: 1 | Forks: 0
# epstein-files
一个脚本,用于下载埃普斯坦/麦克斯韦尔联邦调查、法院诉讼和FOIA发布的所有公开文件。不在此仓库中存储PDF文件——脚本从原始公共来源(Archive.org、DOJ镜像)拉取文件并验证校验和。
## 包含内容
| 来源 | 文档数量 | 描述 |
|--------|-----------|-------------|
| DOJ数据集 1-8、12 | 约2,500+ | 根据《埃普斯坦文件透明度法案》发布的官方DOJ披露文件(2025年11月)。FBI 302访谈报告、调查文件、附件、带 Bates 编号的EFTA生产文件。 |
| Giuffre v. Maxwell (15-cv-07433) | 约1,900 | 民事案件法院文件:取证记录、附件、2024年1月解封批次、动议、命令。 |
| US v. Maxwell (20-cr-330) | 约1,080 | 刑事起诉:起诉书、审判附件、量刑备忘录、上诉文件。 |
| US v. Epstein (19-cr-490) | 约250 | 刑事案件文件、保释备忘录、起诉书及相关程序。 |
| FBI Vault FOIA | 22 | FBI对调查文件的FOIA发布(Part 1-22)。 |
| Archive.org 集合 | 约100 | curated 编译内容:飞行日志、黑皮书、认罪协议、资产披露等。 |
## 不包含内容
- **DOJ数据集 9-11**(约287 GB)——体积过大,不适合实际下载。这些包含批量扫描图像,可通过Archive.org的种子文件获取。
- **众议院监督委员会发布文件**(约53,000页)——部分文本摘要在Archive.org上可用,但尚未提供可下载的PDF。
- **密封文件**——任何未由法院或政府机构公开释放的文件。
- **二手资料**——不包含书籍、新闻报道或评论,仅限原始文件。
## 使用方法
```
# 安装依赖
pip install httpx
# 下载所有内容(~16 GB,耗时 1-2 小时)
python download.py
# 下载可恢复 — 如果中断请重新运行
python download.py
# 下载后统计页数
python count_pages.py
```
文件将下载到 `documents/` 目录,并通过 MD5 哈希去重。`manifest.json` 文件列出每个文档及其来源 URL、校验和和页数。
## 清单格式
```
{
"filename": "EFTA00039025.pdf",
"source": "DOJ Dataset 1",
"source_url": "https://archive.org/download/data-set-1/DataSet%201.zip",
"pages": 12,
"size_bytes": 245832,
"md5": "a1b2c3d4e5f6...",
"bates_number": "EFTA00039025"
}
```
## 来源说明
该集合中的每个文件都可追溯到公开的政府发布或联邦法院提交的资料。来源包括:
- **DOJ**:[justice.gov/epstein](https://www.justice.gov/epstein/doj-disclosures)(在Archive.org上镜像)
- **RECAP/CourtListener**:联邦法院 PACER 文件的归档,存档于 [archive.org](https://archive.org)
- **FBI Vault**:[vault.fbi.gov/jeffrey-epstein](https://vault.fbi.gov/jeffrey-epstein)(在Archive.org上镜像)
## 存在目的
这些文件是美国政府和联邦法院公开的记录。它们应当易于访问、验证和搜索。本仓库使该集合可复现——任何人都可以运行该脚本并获得相同的一组文件,并通过校验和进行验证。
## 许可证
文件本身属于美国政府作品和联邦法院提交资料——公有领域。该仓库中的脚本采用 MIT 许可证。
标签:Archive.org, DOJ 数据集, Epstein 文件, FBI Vault FOIA, FOIA, Giuffre v. Maxwell, HTTP 请求, Maxwell 文件, MD5 校验, Python 脚本, URL抓取, US v. Epstein, US v. Maxwell, 公开记录, 刑事调查, 去重, 可恢复下载, 司法调查, 大数据, 批量下载, 政府文件, 数据抓取, 文档管理, 档案下载, 民事案件, 法院文件, 电子取证, 目录扫描, 运行时操纵, 逆向工具, 透明度