ymw020621-coder/DAS-Extractor
GitHub: ymw020621-coder/DAS-Extractor
基于DeepSeek-V3大模型和规则匹配的学术论文数据可用性声明自动化提取与分类工具,支持大规模PDF文献处理。
Stars: 0 | Forks: 0
# DAS-Extractor
**学术论文数据可用性声明的自动化检测与分类**
## 概述
本项目利用 DeepSeek-V3 API 和基于规则的文本处理技术,从约 7,301 篇医学和工程研究论文(2015-2024)中提取并分类数据可用性声明 (DAS)。
## 数据集
- **医学与健康科学**:3,988 篇文章 (2020-2024)
- **工程学**:3,313 篇文章 (2015-2024)
- **总计**:约 7,301 个全文 PDF
## 方法
### 1. PDF 处理
- 使用 PyMuPDF 提取文本
- 清理页眉、页脚并规范化间距
### 2. 候选章节识别(3 个阶段)
1. **关键词匹配**:提取 DAS 相关关键词前后约 3,000 个字符
2. **结论-参考文献回退**:提取这两个章节之间的文本
3. **仅参考文献回退**:提取参考文献前 3,000 个字符
### 3. LLM 分类
- **模型**:DeepSeek-V3-0324
- **Temperature**:0(确定性)
- **输出**:DAS 内容、置信度(高/中/低)、推理过程
### 4. 共享类型分类
改编自 Federer et al. (2018) 的 10 个类别:
- `repository`, `upon_request`, `in_paper`, `in_paper_and_SI`, `in_SI`
- `access_restricted`, `combination`, `location_not_stated`, `na_value`, `other`
## 验证结果(500 篇论文样本)
**工程学 (n=250)**:
- 布尔准确率:99.6%
- F1 分数:0.998
- 精确匹配:249/250
**医学 (n=250)**:
- 布尔准确率:100%
- F1 分数:0.973
- 精确匹配:231/244
## 安装
```
pip install -r requirements.txt
```
## 使用方法
### 基本工作流程
1. 在 notebook 中设置你的 DeepSeek API key
2. 配置 PDF 文件夹路径
3. 按顺序运行 cells
### 可选:处理“Maybe”情况
检测完成后,处理不确定的案例,此步骤将 226 个“Maybe”案例分类为:
- **无 DAS 标题** (177):自动分类为假阳性
- **需审核** (49):需要人工审查
## 主要特性
- 成本高效:每篇论文约 370-740 tokens,而全文需 4,000-8,000 tokens
- 高准确率:>99% 的检测率
- 智能处理“Maybe”:自动过滤 177 个“无标题”假阳性,仅 49 个需要人工审查
- 可扩展:已处理 7,301 篇论文
## 引用
```
@software{das_extractor_2025,
author = {Joshua Wong},
title = {DAS-Extractor: Automated Detection and Classification of Data Availability Statements},
year = {2025},
url = {https://github.com/ymw020621-coder/DAS-Extractor}
}
```
## 参考文献
- Federer et al. (2018) - DAS 分类法
- DeepSeek-V3-0324 - LLM 分类模型
- PyMuPDF - PDF 文本提取
标签:DAS提取, DeepSeek, LSASS转储, PDF处理, PyMuPDF, Python, 云计算, 信息抽取, 学术论文分析, 开放科学, 数据共享, 数据可用性声明, 文本挖掘, 文献分类, 无后门, 熵值分析, 生物医学工程, 科研数据管理, 规则引擎, 逆向工具