dfdamiao/quant-paper-analyzer

GitHub: dfdamiao/quant-paper-analyzer

从 arXiv 抓取量化金融论文，利用多种 LLM 进行结构化分析与交易相关性评分，并生成可视化报告的自动化工具。

Stars: 0 | Forks: 0

# quant-paper-analyzer 从 **arXiv** 获取量化金融研究论文，并使用 **LLM**（Claude、Gemini、Mistral、Groq 或 Perplexity）进行分析和评分。分析器会提取论文文本，请求 LLM 生成结构化的 JSON 拆解（贡献、方法论、发现、交易适用性、实施陷阱等），并由评分器根据交易相关性对论文进行排名。 ## 功能简介 - **获取** arXiv API 上的最新 q-fin 论文。 - **提取** PDF 文本（PyMuPDF / pdfplumber / PyPDF2，支持可选的 OCR）。 - 使用 LLM 将每篇论文**分析**为结构化的 JSON，并通过多密钥轮换在各提供商之间分摊速率限制。 - 对论文进行**评分**（V2：严格聚焦于交易，自动拒绝非交易类工作）并生成 HTML 报告。 ## 安装 ``` git clone https://github.com/dfdamiao/quant-paper-analyzer.git cd quant-paper-analyzer pip install -e . # 扫描 PDF 的可选 OCR（也需要 `tesseract` 系统 binary）： pip install -e ".[ocr]" ``` Python >= 3.11。 ## 自备 LLM 密钥本仓库不附带任何密钥。请通过环境变量提供您自己的密钥（以逗号分隔；多个密钥会轮流使用以分摊速率限制）： ``` export PAPERSCOPE_ANTHROPIC_API_KEYS="sk-ant-..." # Claude export PAPERSCOPE_GEMINI_API_KEYS="..." # Gemini ``` 或者将 `config.example.json` 复制为 `config.json` 并填写 `llm_api_keys`。参见 `paperscope/settings.py`。 | `--provider` | 模型（默认，轮换使用） | 获取密钥 | |---|---|---| | `anthropic` | Claude Sonnet / Haiku / Opus | https://console.anthropic.com/settings/keys | | `gemini` | Gemini 2.5 Flash / Flash-Lite / Pro | https://aistudio.google.com/apikey | | `google` | Gemma 3（免费，高 RPM） | https://aistudio.google.com/apikey | | `mistral` | Mistral Large / Medium | https://console.mistral.ai/ | | `groq` | Llama 3.x / 4 | https://console.groq.com/keys | | `perplexity` | Sonar Pro | https://www.perplexity.ai/settings/api | `gemini` 和 `google` 共享同一个 Google AI Studio 密钥：如果未设置 gemini 专用密钥，`gemini` 运行时会回退到 `google` 密钥。可以使用 `--model` 覆盖任何提供商的模型（例如 `--model claude-opus-4-8`）；当前的 Claude ID 列表见 https://docs.anthropic.com/en/docs/about-claude/models。 ## 快速开始 ``` # 列出 arXiv 上最近的 q-fin 论文（无需 key）： python -m examples.fetch_arxiv # 使用 LLM 分析文件夹中的 PDF（需要为所选的 provider 提供 key）： python -m paperscope.academic_paper_analyzer \ --papers-dir ./arxiv_papers --output-dir ./paper_analyses --provider anthropic # 或者使用 Gemini / Mistral / 等。： python -m paperscope.academic_paper_analyzer \ --papers-dir ./arxiv_papers --output-dir ./paper_analyses --provider gemini # 为分析评分并生成 HTML 报告： python -m paperscope.paper_scorer_v2 --analyses-dir ./paper_analyses --output paper_scores_v2.json python -m paperscope.generate_scored_papers_html --scores paper_scores_v2.json --min-tier 2 ``` ## Prompt 注入安全论文 PDF 属于外部的不可信内容。`LLMClient._create_analysis_prompt` 会将提取的文本包裹在 `[PAPER_START]` / `[PAPER_END]` 之间，并添加 `ABSOLUTE RULE` 前缀，指示模型将该区块严格视为数据，绝不执行其中的任何指令。如果您扩展了 prompt，请保留此包裹结构。 ## 注意事项 - 原内部工具中的 SSRN 浏览器爬虫已被刻意移除；此处支持的来源是 arXiv（一种公开、符合服务条款的 API）。 - 使用 LLM 会产生费用，并受各提供商服务条款的约束。您需对自己的密钥和使用情况负责。 ## 许可证 MIT，详见 [LICENSE](LICENSE)。

标签：AI评分, DLL 劫持, PDF解析, Python, 大语言模型, 学术论文分析, 无后门, 逆向工具, 金融量化