ayajmire/researcherML
GitHub: ayajmire/researcherML
一款面向医疗健康研究人员的无代码机器学习桌面应用,通过对话式引导自动完成数据清洗和模型训练,让无编程背景的研究者也能规范地开展 ML 研究。
Stars: 0 | Forks: 0
# ResearcherML - 面向医疗健康研究人员的无代码 ML 工具
## 🎯 什么是 ResearcherML?
ResearcherML 是一款桌面应用程序,允许医疗健康研究人员:
- 上传杂乱的医疗数据集(CSV、JSON、Excel)
- 通过对话式问答清理数据
- 自动训练 20 多种 ML 模型
- 下载训练好的模型用于研究
**无需 Python。无需编写代码。不需要数据科学学位。**
## ✨ 核心功能
### 🗣️ 对话式数据清理
我们不使用技术下拉菜单和专业术语,而是直接提出简单的自然语言问题:
- “这一列代表什么?”
- “是否存在看起来有问题的值?”
- “缺失值应该如何处理?”
### 📊 实时可视化
实时观察您的数据转换过程:
- 直方图和条形图会随着您的回答而更新
- 缺失值指示器在处理完成后会变为绿色
- 每一步都提供处理前后的对比
### 🤖 自动化 ML
- 20 多种算法(Logistic Regression、Random Forest、XGBoost、Neural Networks 等)
- 使用 Optuna 进行自动超参数调优
- 混淆矩阵和性能指标
- 支持多分类任务
### 🔒 隐私优先
- 完全在您的电脑上运行
- 无需上传至云端
- 无需注册账号
- 兼容 HIPAA 规范(所有数据均保留在本地)
## 📥 安装说明
### macOS
1. 下载 `ResearcherML.dmg`
2. 打开 DMG 文件
3. 将 ResearcherML 拖入“应用程序”文件夹
4. 双击启动
- 首次启动:右键点击 → 打开(以绕过 Gatekeeper)
### Windows
1. 下载 `ResearcherML Setup.exe`
2. 运行安装程序
3. 按照向导提示操作
4. 从“开始”菜单启动
### Linux
1. 下载 `ResearcherML.AppImage`
2. 赋予可执行权限:`chmod +x ResearcherML*.AppImage`
3. 双击运行
## 🚀 快速入门
1. **启动应用程序** - 双击 ResearcherML
2. **上传您的数据** - 拖放 CSV 文件或点击浏览
3. **回答问题** - 遵循引导式清理流程
4. **训练模型** - 选择算法并点击“训练”
5. **下载结果** - 导出训练好的模型和指标
## 🎓 专为研究人员打造
### 研究启发
本项目源自 UCLA/Zar Lab 的研究(*《A benchmark for large language models in bioinformatics》*),该研究发现:
- GPT-4:在 UCI Heart Disease 任务中准确率为 63%
- 规范的 ML pipeline:准确率为 96%
- **解决方案:** 引导式界面,用于生成规范的 ML pipeline
### 应用场景
- 临床结果预测
- 疾病分类
- 风险分层
- 治疗反应预测
- 生物标志物发现
### 学术发表
训练好的模型包含:
- 特征重要性排名
- 混淆矩阵
- 性能指标(准确率、精确率、召回率、F1 分数)
- 可直接用于论文的补充材料
## 🛠️ 开发者指南
### 前置条件
- Node.js 18+
- Python 3.11+
- npm
### 环境设置
```
# Clone repository
git clone
cd researcherML
# Install dependencies
npm install
cd backend && pip install -r requirements.txt && cd ..
# Run in development mode
npm run dev
```
### 构建
```
# Build for your platform
npm run build:mac # macOS
npm run build:win # Windows
npm run build:linux # Linux
npm run build:all # All platforms
```
### 项目结构
```
researcherML/
├── electron/ # Desktop app
├── backend/ # Python FastAPI server
├── frontend/ # HTML/CSS/JavaScript
├── assets/ # Icons
└── docs/ # Documentation
```
## 📚 文档
- [完整摘要](COMPLETE_SUMMARY.md) - 所有功能概览
- [问卷功能](QUESTIONNAIRE_FEATURE_COMPLETE.md) - 数据清理界面详细文档
- [Electron 构建指南](ELECTRON_BUILD.md) - 构建与分发
- [Sprint 1 修复](SPRINT1_COMPLETE.md) - 错误修复与改进
## 🧪 测试
### 手动测试
```
npm run dev # Launch in dev mode with DevTools
```
使用示例医疗数据集进行测试:
- 上传包含混合数据类型的 CSV
- 完成问卷流程
- 训练多个模型
- 检查结果
### 自动化测试
```
npm test # Coming soon
```
## 🤝 参与贡献
我们欢迎各种贡献!重点关注领域:
- UI/UX 改进
- 增加更多 ML 算法
- 更好的可视化效果
- 完善文档
- 修复 Bug
## 📄 许可证
MIT 许可证 - 详情请参阅 LICENSE 文件
## 🙏 致谢
- 感谢医疗健康研究人员的反馈
- 感谢开源 ML 社区(scikit-learn、XGBoost 等)
## 📧 联系方式
- **开发者:** Aadi Ajmire
- **问题:** GitHub Issues
- **反馈:** [your-email]
## 🗺️ 路线图
### 当前版本 (1.0.0)
- ✅ 桌面应用程序
- ✅ 问卷驱动的数据清理
- ✅ 20 多种 ML 算法
- ✅ 多分类支持
- ✅ 会话持久化
### 即将推出 (1.1.0)
- [ ] 用户身份验证
- [ ] 云同步
- [ ] 自动更新
- [ ] 图像模型(CNN/ResNet)
- [ ] 时间序列模型(LSTM)
### 未来规划
- [ ] 订阅层级
- [ ] 协作功能
- [ ] 模型市场
- [ ] 移动端应用
## 💡 为什么选择 ResearcherML?
**面临的问题:**
医疗健康研究人员拥有宝贵的数据,但缺乏数据科学技能。现有工具要么过于技术化(Python/R),要么过于局限(AutoML 黑盒)。
**我们的解决方案:**
一款边工作边教学的引导式界面。研究人员只需回答关于其数据的问题,我们就会在后台生成规范的 ML pipeline。
**产生的影响:**
- 耗时仅需数小时而非数周
- 无需编写代码
- 结果可用于学术发表
- 采用规范的 ML 最佳实践
- 完全透明
**状态:** ✅ MVP 已完成 - 已准备好进行 Beta 测试
**如果 ResearcherML 对您的研究有所帮助,请为本项目点亮 Star!** ⭐
标签:AutoML, CSV处理, Excel处理, HIPAA合规, JavaScript前端, JSON处理, MITM代理, Optuna, Python后端, XGBoost, 代码示例, 分类算法, 医疗人工智能, 医疗保健, 医疗数据, 医疗研究, 图像数据, 对话式AI, 数据分析, 数据可视化, 数据清洗, 数据科学, 无代码机器学习, 时间序列, 本地部署, 机器学习平台, 桌面应用, 模型训练, 混淆矩阵, 特征工程, 神经网络, 科研工具, 网络安全, 自动机器学习, 自定义脚本, 表格数据, 资源验证, 超参数优化, 逆向工具, 逻辑回归, 随机森林, 隐私保护