LPhex9/archival-dives

GitHub: LPhex9/archival-dives

基于 Internet Archive 的结构化档案研究方法论框架,提供可复现的主题式数字资料鉴定与描述流程。

Stars: 0 | Forks: 0

# archival-dives 采用可重复的方法论针对 Internet Archive(及相关平台)生成的结构化档案研究卷宗。每次深入研究都像档案管理员处理新入库的收藏品一样对待一个主题:发现、鉴定、描述、评估、三角验证以及保存计划。 本仓库是 [`warc-portfolio`](https://github.com/LPhex9/warc-portfolio)(*获取 + 打包*部分)的*研究*对应部分。 ## 包含的深入研究 | 主题 | 已编目来源 | 状态 | |---|---|---| | [二战德国密码机](ww2-german-cipher-machines/) | 42 个候选中的 25 个 | 已完成 | | [复古电子电路图](vintage-electronics-schematics/) | 广泛搜索中的顶级项目 | 已完成 | | [归档与建立归档系统](archiving-and-systems-setup/) | 约 340 个候选中的 15 个 | 已完成 | | [2026 年就业市场与兴趣](job-market-interests-2026/) | 范围界定调查 | 已完成 | ## 方法论(所有深入研究保持一致) 每个卷宗都遵循相同的 10 个文件结构: | 文件 | 用途 | |---|---| | `00-index.md` | 范围、方法论、关键发现、文件指南 | | `01-discovery-ledger.md` | 每个搜索查询和原始候选命中 | | `02-item-metadata.md` | 所选项目的结构化元数据记录 | | `03-source-evaluation.md` | 来源、权威性、完整性、权利 | | `04-layer-a-observational.md` | 从来源提取的事实内容 | | `05-layer-b-interpretive.md` | 分析、背景、史学批评 | | `06-triangulation-matrix.md` | 关键声明的跨来源验证 | | `07-related-collections.md` | 相邻馆藏、检索工具、Open Library | | `08-questions-to-investigate.md` | 后续议程 | | `09-preservation-notes.md` | 下载命令、格式说明、权利 | 两层(观察 / 解释)划分借鉴了情报分析技术,并针对档案鉴定进行了调整——它将原始证据与综合分析分开,从而保持推理链条的可审计性。 ## 标准与约定 - **日期:** ISO 8601 (YYYY-MM-DD) - **来源发现:** Internet Archive Advanced Search API(Lucene 字段查询,按下载量排序作为受欢迎程度的代理),`/metadata/` 用于记录检索 - **来源排名:** 根据来源、机构权威性、完整性、一手与二手状态以及权利清晰度进行加权 - **链接:** 卷宗文件之间使用 Obsidian 风格的 `[[wikilinks]]` ## 存在的原因 数字保存不仅仅是关于字节——它是关于*鉴定*(决定哪些内容值得保留)和*描述*(使其日后可被检索)。这些卷宗锻炼了该学科的这一面。将它们与 `warc-portfolio` 结合使用,以涵盖打包与固性(packaging-and-fixity)方面。 ## 许可证 原创研究和写作采用 CC-BY-4.0 许可。底层来源保留其原有权利——请参阅每个卷宗的 `03-source-evaluation.md` 和 `09-preservation-notes.md`。
标签:信息整理, 历史研究, 数字归档, 网络档案, 资料搜集, 防御加固