lhfer/xhs-profiler

GitHub: lhfer/xhs-profiler

基于多模态LLM的小红书用户深度画像分析工具，从公开社交媒体数据生成九维度心理画像并输出交互式报告。

Stars: 3 | Forks: 0

XHS Profiler — 小红书用户深度画像 & 追求策略 AI 引擎

给我一个小红书主页链接，还你一份 FBI 级别的人物画像 + 量身定制的追求路线图

## 🎯 它能做什么？ **最终产出**：一份精美的 **7 Tab 交互式 HTML 报告**，内含雷达图、理想型匹配度自测工具、可搜索的笔记列表和量身定制的话术锦囊。 ### 和其他工具的区别 | 特性 | 其他工具 | **XHS Profiler** | |------|---------|-----------------| | 数据源 | 只抓文字 | **图文多模态分析**（小红书 80% 信息在图片里） | | AI 模型 | 绑定单一模型 | **任意 LLM**（GPT-4o/Claude/Gemini/本地模型一行切换） | | 分析深度 | 简单标签 | **9 维度 + 5 大心理学理论框架** | | 收藏分析 | 不分析收藏 | **收藏夹深挖**（发布是前台，收藏才是真实偏好） | | 输出 | 纯文本 | **7 Tab 交互式 HTML 报告 + 匹配度自测** | ## 🚀 30秒快速开始 # 1. 克隆 git clone https://github.com/lhfer/xhs-profiler.git cd xhs-profiler # 2. 安装 pip install -r requirements.txt playwright install chromium # 3. 配置 API Key（任选一个模型） export OPENAI_API_KEY="sk-xxx" # GPT-4o # export ANTHROPIC_API_KEY="sk-ant-xxx" # Claude # export GEMINI_API_KEY="xxx" # Gemini # 4. 运行！ python main.py "https://www.xiaohongshu.com/user/profile/xxxxx" 浏览器会自动打开 → 请先登录小红书 → 回到终端等待分析完成 → 报告自动生成在 `outputs/` 目录。 ## ✨ 核心能力 ### 1️⃣ 多模态数据采集 — 图片 + 文字一个不漏 📊 采集能力： ├── 笔记全量扫描（破解虚拟滚动，边滚边收集） ├── 笔记图片逐张截取（多模态 AI 分析穿搭/场景/品牌/审美） ├── 笔记精读（正文 + 标签 + 评论区分析） ├── 收藏夹全量深挖（前台 vs 后台偏好对比） └── 主页截图 + 基础数据采集 ### 2️⃣ 9 维度深度画像 — 比 TA 更懂 TA | 维度 | 分析内容 | 方法论 | |------|----------|--------| | 📋 基础人口学 | 年龄、职业、城市、教育 | 多信号交叉验证 | | 💰 消费与生活方式 | 消费力、品牌偏好、兴趣图谱 | 内容聚类 + **图片品牌识别** | | 🧠 心理与人格 | Big Five 人格模型评估 | Watson et al. (2004) | | 🌐 社会关系与影响力 | KOL/KOC 分级、社群归属 | 粉丝互动分析 | | ⏰ 时间行为模式 | 发布规律、主题演变 | 时序分析 | | 💬 社交互动偏好 | 回复什么类型的评论 | 评论区逆向工程 | | 💕 情感状态推断 | 是否有伴侣的蛛丝马迹 | 多信号综合（⚠️ 低置信度） | | 🔑 吸引力密码 | TA 最引以为豪的身份 | Goffman 拟剧论 | | 💜 **理想型画像** | **TA 会被什么样的人吸引** | **5 大心理学理论综合推断** | ### 3️⃣ 理想型画像推断 — 学术级别的读心术基于 5 大经典心理学理论框架，从 6 个维度推断 TA 的理想型： 📖 Byrne 相似-吸引范式 (1971) → 什么人让 TA 感到「遇到同类」 📖 Watson Big Five 匹配 (2004) → 什么性格和 TA 最兼容 📖 Aron 自我扩展模型 (1986) → 谁能带给 TA 全新体验 📖 Bowlby 依恋理论 → TA 需要什么样的安全感 📖 Dweck 成长型思维 (2006) → TA 欣赏什么样的上进姿态 **6 维度分析**：审美共鸣力 · 文化视野 · 自我扩展力 · 安全型依恋 · 成长型人格 · 情感联结力 ### 4️⃣ 追求策略 — 军师级别的作战计划不是鸡汤，是有 **具体行动步骤 + 话术模板 + 分支应对** 的完整路线图： Phase 1: 刷存在感（1-2周）→ 评论话术 × 5 + 三种回应应对 Phase 2: 建立连接（2-4周）→ 首条私信 × 3 版本 Phase 3: 深入了解（3-6周）→ 转微信话术 + 聊天节奏 Phase 4: 线下见面（4-8周）→ 3 个量身定制约会场景 Phase 5: 关系升温（6-12周）→ 表白时机判断信号 ### 5️⃣ 模型自由 — 一行切换，不锁定任何 AI python main.py "链接" --model gpt-4o # OpenAI python main.py "链接" --model claude-sonnet-4-6 # Anthropic python main.py "链接" --model gemini/gemini-2.0-flash # Google python main.py "链接" --model ollama/llava # 本地模型（免费！）底层使用 [LiteLLM](https://github.com/BerriAI/litellm) 统一接口，支持 100+ 模型，包括本地部署的开源模型。 ## 🏗️ 技术架构 ┌─────────────────┐ │ 用户提供链接 │ └────────┬────────┘ │ ┌──────────────▼──────────────┐ │ Playwright 自动化浏览器 │ ├─────────────────────────────┤ │ • 虚拟滚动破解（边滚边收集） │ │ • 笔记图片逐张截取 │ │ • 收藏夹全量扫描 │ │ • 登录弹窗自动处理 │ └──────────────┬──────────────┘ │ 文字 + 截图 + 图片 ┌────────────▼────────────┐ │ LiteLLM 统一接口 │ │ (任意多模态 LLM) │ ├────────────────────────┤ │ GPT-4o │ Claude │ Gemini │ │ Qwen-VL │ LLaVA │ ... │ ├────────────────────────┤ │ 9 维度画像 + 理想型推断 │ │ 5 阶段追求策略生成 │ └────────────┬────────────┘ │ ┌────────────▼────────────┐ │ Jinja2 报告引擎 │ ├────────────────────────┤ │ 7-Tab 交互式 HTML │ │ Chart.js 数据可视化 │ │ 匹配度自测工具 │ └─────────────────────────┘ ## 📁 项目结构 xhs-profiler/ ├── main.py # CLI 入口 ├── xhs_scraper.py # Playwright 数据采集（998行） ├── xhs_analyzer.py # LiteLLM 多模态分析（788行） ├── xhs_reporter.py # HTML 报告生成器 ├── config.yaml # 模型 & 采集配置 ├── requirements.txt ├── prompts/ │ ├── profile_analysis.md # 9维度画像分析 prompt │ ├── strategy.md # 追求策略 prompt │ └── image_analysis.md # 图片分析 prompt └── templates/ └── report.html # 7 Tab 交互式报告模板 ## 🎨 效果展示 ### 总览 — 五维雷达图 + 核心标签 ╔══════════════════════════════════════════════════╗ ║ 📊 用户画像总览 ║ ║ ║ ║ 「一个IT咨询师、环球旅行家和音乐追梦人—— ║ ║ 用脚步丈量75个国家，用音乐连接世界」 ║ ║ ║ ║ 🏷️ 环球旅行家 · IT咨询 · 巨蟹座 · 音乐控 ║ ║ ║ ║ 开放性 95 ║ ║ ╱╲ ║ ║ 生活 ╱ ╲ 独立 ║ ║ 85 ╱ ⬡⬡ ╲ 90 ║ ║ ╲ ⬡⬡ ╱ ║ ║ 社交 ╲ ╱ 浪漫 ║ ║ 70 ╲╱ 80 ║ ╚══════════════════════════════════════════════════╝ ### 理想型匹配度自测 ╔══════════════════════════════════════════════════╗ ║ 💜 为自己在每个维度打分（1-100）: ║ ║ ║ ║ 🎨 审美共鸣力 ████████░░░░░ 65 ║ ║ 📚 文化视野 ██████████░░░ 80 ║ ║ 🚀 自我扩展力 ████████░░░░░ 60 ║ ║ 🤗 安全型依恋 █████████░░░░ 70 ║ ║ 📈 成长型人格 ██████████░░░ 85 ║ ║ 💗 情感联结力 ████████░░░░░ 65 ║ ║ ║ ║ 💕 匹配度：76% — 很有潜力的组合！ ║ ╚══════════════════════════════════════════════════╝ ## ⚙️ 配置说明编辑 `config.yaml`： # 模型选择（一行切换） model: "gpt-4o" # 采集配置 scraper: headless: false # true=无头模式(服务器), false=有窗口(方便登录) scroll_delay_ms: 400 sample_deep_read: 4 # 精读笔记数量 # 分析配置 analyzer: max_tokens: 4096 temperature: 0.7 ## ❓ 常见问题

需要登录小红书吗？

**强烈建议登录。** 未登录只能看到约 10 条笔记，无法看收藏。登录后数据量提升 **5-10 倍**。首次运行时浏览器会打开，手动登录一次即可，后续自动复用登录态。

支持哪些 AI 模型？

通过 LiteLLM 支持 **100+ 模型**，包括：OpenAI (GPT-4o)、Anthropic (Claude)、Google (Gemini)、阿里 (Qwen-VL)、本地模型 (Ollama/LLaVA) 等。只要模型支持图片输入就行。

分析一个人需要多久？

取决于笔记数量和模型速度。通常 5-15 分钟。

用本地模型可以完全免费吗？

可以！用 `ollama/llava` 等本地多模态模型，零 API 费用。但分析质量取决于模型能力，建议用 GPT-4o 或 Claude 获得最佳效果。

收藏夹私密怎么办？

自动跳过，报告中标注「收藏夹不可见」。分析仍可进行，但会失去最有价值的「内隐偏好」数据。

## ⚖️ 免责声明本工具仅供学习和个人娱乐使用。所有分析基于公开社交媒体内容，结合心理学研究结论生成，**不等同于专业心理评估**。请尊重他人隐私，理性使用分析结果。 ## 🤝 贡献欢迎 PR！可以贡献的方向： - 🌍 支持更多平台（抖音、微博、Instagram...） - 🧠 增加更多心理学理论框架 - 🎨 改进报告模板和可视化 - 🔧 适配更多 LLM 模型 - 📊 增加竞品分析功能 ## 📜 License MIT

_{Built with ❤️ and psychology}
_{Powered by Playwright + LiteLLM + Chart.js}

⭐ 如果觉得有用，请给个 Star！⭐

标签：AI画像, AI风险缓解, BeEF, Claude, CVE检测, ESC4, Gemini, GitHub, GPT-4o, HTML报告, MBTI, OSINT, Python, 人物分析, 依恋理论, 多模态分析, 大五人格, 密码管理, 小红书, 开源网络情报, 心理侧写, 心理学, 情感分析, 无后门, 深度画像, 爬虫, 特征检测, 理想型匹配, 用户画像, 社交媒体分析, 社交工程, 话术生成, 追求策略, 追求路线图, 逆向工具, 黑暗三联征