ayajmire/researcherML

GitHub: ayajmire/researcherML

一款面向医疗健康研究人员的无代码机器学习桌面应用，通过对话式引导自动完成数据清洗和模型训练，让无编程背景的研究者也能规范地开展 ML 研究。

Stars: 0 | Forks: 0

# ResearcherML - 面向医疗健康研究人员的无代码 ML 工具 ## 🎯 什么是 ResearcherML？ ResearcherML 是一款桌面应用程序，允许医疗健康研究人员： - 上传杂乱的医疗数据集（CSV、JSON、Excel） - 通过对话式问答清理数据 - 自动训练 20 多种 ML 模型 - 下载训练好的模型用于研究 **无需 Python。无需编写代码。不需要数据科学学位。** ## ✨ 核心功能 ### 🗣️ 对话式数据清理我们不使用技术下拉菜单和专业术语，而是直接提出简单的自然语言问题： - “这一列代表什么？” - “是否存在看起来有问题的值？” - “缺失值应该如何处理？” ### 📊 实时可视化实时观察您的数据转换过程： - 直方图和条形图会随着您的回答而更新 - 缺失值指示器在处理完成后会变为绿色 - 每一步都提供处理前后的对比 ### 🤖 自动化 ML - 20 多种算法（Logistic Regression、Random Forest、XGBoost、Neural Networks 等） - 使用 Optuna 进行自动超参数调优 - 混淆矩阵和性能指标 - 支持多分类任务 ### 🔒 隐私优先 - 完全在您的电脑上运行 - 无需上传至云端 - 无需注册账号 - 兼容 HIPAA 规范（所有数据均保留在本地） ## 📥 安装说明 ### macOS 1. 下载 `ResearcherML.dmg` 2. 打开 DMG 文件 3. 将 ResearcherML 拖入“应用程序”文件夹 4. 双击启动 - 首次启动：右键点击 → 打开（以绕过 Gatekeeper） ### Windows 1. 下载 `ResearcherML Setup.exe` 2. 运行安装程序 3. 按照向导提示操作 4. 从“开始”菜单启动 ### Linux 1. 下载 `ResearcherML.AppImage` 2. 赋予可执行权限：`chmod +x ResearcherML*.AppImage` 3. 双击运行 ## 🚀 快速入门 1. **启动应用程序** - 双击 ResearcherML 2. **上传您的数据** - 拖放 CSV 文件或点击浏览 3. **回答问题** - 遵循引导式清理流程 4. **训练模型** - 选择算法并点击“训练” 5. **下载结果** - 导出训练好的模型和指标 ## 🎓 专为研究人员打造 ### 研究启发本项目源自 UCLA/Zar Lab 的研究（*《A benchmark for large language models in bioinformatics》*），该研究发现： - GPT-4：在 UCI Heart Disease 任务中准确率为 63% - 规范的 ML pipeline：准确率为 96% - **解决方案：** 引导式界面，用于生成规范的 ML pipeline ### 应用场景 - 临床结果预测 - 疾病分类 - 风险分层 - 治疗反应预测 - 生物标志物发现 ### 学术发表训练好的模型包含： - 特征重要性排名 - 混淆矩阵 - 性能指标（准确率、精确率、召回率、F1 分数） - 可直接用于论文的补充材料 ## 🛠️ 开发者指南 ### 前置条件 - Node.js 18+ - Python 3.11+ - npm ### 环境设置 ``` # Clone repository git clone cd researcherML # Install dependencies npm install cd backend && pip install -r requirements.txt && cd .. # Run in development mode npm run dev ``` ### 构建 ``` # Build for your platform npm run build:mac # macOS npm run build:win # Windows npm run build:linux # Linux npm run build:all # All platforms ``` ### 项目结构 ``` researcherML/ ├── electron/ # Desktop app ├── backend/ # Python FastAPI server ├── frontend/ # HTML/CSS/JavaScript ├── assets/ # Icons └── docs/ # Documentation ``` ## 📚 文档 - [完整摘要](COMPLETE_SUMMARY.md) - 所有功能概览 - [问卷功能](QUESTIONNAIRE_FEATURE_COMPLETE.md) - 数据清理界面详细文档 - [Electron 构建指南](ELECTRON_BUILD.md) - 构建与分发 - [Sprint 1 修复](SPRINT1_COMPLETE.md) - 错误修复与改进 ## 🧪 测试 ### 手动测试 ``` npm run dev # Launch in dev mode with DevTools ``` 使用示例医疗数据集进行测试： - 上传包含混合数据类型的 CSV - 完成问卷流程 - 训练多个模型 - 检查结果 ### 自动化测试 ``` npm test # Coming soon ``` ## 🤝 参与贡献我们欢迎各种贡献！重点关注领域： - UI/UX 改进 - 增加更多 ML 算法 - 更好的可视化效果 - 完善文档 - 修复 Bug ## 📄 许可证 MIT 许可证 - 详情请参阅 LICENSE 文件 ## 🙏 致谢 - 感谢医疗健康研究人员的反馈 - 感谢开源 ML 社区（scikit-learn、XGBoost 等） ## 📧 联系方式 - **开发者：** Aadi Ajmire - **问题：** GitHub Issues - **反馈：** [your-email] ## 🗺️ 路线图 ### 当前版本 (1.0.0) - ✅ 桌面应用程序 - ✅ 问卷驱动的数据清理 - ✅ 20 多种 ML 算法 - ✅ 多分类支持 - ✅ 会话持久化 ### 即将推出 (1.1.0) - [ ] 用户身份验证 - [ ] 云同步 - [ ] 自动更新 - [ ] 图像模型（CNN/ResNet） - [ ] 时间序列模型（LSTM） ### 未来规划 - [ ] 订阅层级 - [ ] 协作功能 - [ ] 模型市场 - [ ] 移动端应用 ## 💡 为什么选择 ResearcherML？ **面临的问题：** 医疗健康研究人员拥有宝贵的数据，但缺乏数据科学技能。现有工具要么过于技术化（Python/R），要么过于局限（AutoML 黑盒）。 **我们的解决方案：** 一款边工作边教学的引导式界面。研究人员只需回答关于其数据的问题，我们就会在后台生成规范的 ML pipeline。 **产生的影响：** - 耗时仅需数小时而非数周 - 无需编写代码 - 结果可用于学术发表 - 采用规范的 ML 最佳实践 - 完全透明 **状态：** ✅ MVP 已完成 - 已准备好进行 Beta 测试 **如果 ResearcherML 对您的研究有所帮助，请为本项目点亮 Star！** ⭐

标签：AutoML, CSV处理, Excel处理, HIPAA合规, JavaScript前端, JSON处理, MITM代理, Optuna, Python后端, XGBoost, 代码示例, 分类算法, 医疗人工智能, 医疗保健, 医疗数据, 医疗研究, 图像数据, 对话式AI, 数据分析, 数据可视化, 数据清洗, 数据科学, 无代码机器学习, 时间序列, 本地部署, 机器学习平台, 桌面应用, 模型训练, 混淆矩阵, 特征工程, 神经网络, 科研工具, 网络安全, 自动机器学习, 自定义脚本, 表格数据, 资源验证, 超参数优化, 逆向工具, 逻辑回归, 随机森林, 隐私保护