KanwalAi/DecodeLabs-AI-Internship-2026

GitHub: KanwalAi/DecodeLabs-AI-Internship-2026

DecodeLabs AI 工程实习期间完成的四个渐进式 AI 实践项目集合，涵盖规则聊天机器人、监督学习分类、基于内容的推荐系统和计算机视觉 OCR 与目标检测。

Stars: 1 | Forks: 0

# 🤖 DecodeLabs AI Engineering 实习 — 2026 ### Kanwal Fatima | Artificial Intelligence 赛道这是在 **DecodeLabs AI Engineering 实习（2026 届）** 期间完成的 4 个实践 AI 项目的完整作品集——从基于规则的逻辑逐步进阶到监督学习、推荐系统和计算机视觉。 ![Python](https://img.shields.io/badge/Python-3.12-blue?logo=python&logoColor=white) ![Status](https://img.shields.io/badge/Internship-Completed-success) ![Projects](https://img.shields.io/badge/Projects-4%2F4-brightgreen) ## 📋 项目索引 | # | 项目 | 核心概念 | 技术栈 | |---|---------|---------------|------------| | 1 | [基于规则的 AI 聊天机器人](./Project1_RuleBased_Chatbot) | 控制流与决策逻辑 | Python, Dictionaries | | 2 | [数据分类](./Project2_Data_Classification) | 监督学习 (KNN) | Scikit-Learn, Iris Dataset | | 3 | [AI 推荐逻辑](./Project3_Recommendation_System) | 基于内容的过滤 | TF-IDF, Cosine Similarity | | 4 | [图像与文本识别](./Project4_Image_Text_Recognition) | 计算机视觉与 OCR | OpenCV, Tesseract, MobileNet-SSD | ## 🗂️ 项目详情 ### 1️⃣ 基于规则的 AI 聊天机器人 **目标：** 构建一个使用纯 `if-else`/字典逻辑来响应预定义输入的聊天机器人——不涉及任何 ML。 - 带有清晰退出策略的连续 `while True` 输入循环 - 输入清洗 (`.lower().strip()`) - 包含 20 多个意图的知识库，支持关键词后备匹配 - 展示：**控制流、决策逻辑、基础 AI 概念** 📁 [`Project1_RuleBased_Chatbot/`](./Project1_RuleBased_Chatbot) → `chatbot.py` ### 2️⃣ 使用 AI 进行数据分类 **目标：** 在真实数据集上训练监督分类模型并进行正确的评估。 - **数据集：** Iris（150 个样本，3 个类别，4 个特征） - **Pipeline：** 特征缩放 (`StandardScaler`) → 训练集/测试集划分 (80/20) → `KNeighborsClassifier` (K=5) - **评估：** 混淆矩阵、F1 分数、完整的分类报告 - **结果：** 测试集准确率 100%，F1 = 1.0000 - 展示：**数据处理、监督学习基础、模型训练** 📁 [`Project2_Data_Classification/`](./Project2_Data_Classification) → `classify.py` ### 3️⃣ AI 推荐逻辑 **目标：** 构建一个基于内容的推荐引擎，将用户技能与职业路径进行匹配。 - **数据集：** `raw_skills.csv` — 15 个职位角色 × 116 个独特技能标签（自主构建） - **算法：** TF-IDF 向量化（惩罚通用技能，奖励特定技能）+ Cosine Similarity（幅度不变匹配） - **Pipeline：** 数据摄取 → 评分 → 排序 → 过滤（输出 Top-3） - 包含针对不匹配输入的冷启动检测 - 展示：**逻辑构建、模式匹配、推荐概念** 📁 [`Project3_Recommendation_System/`](./Project3_Recommendation_System) → `recommend.py` ### 4️⃣ 图像与文本识别（可选精通里程碑） **目标：** 使用预训练模型实现光学字符识别 (OCR) 和目标检测。 - **路径 1 — OCR：** 完整的预处理 Pipeline（灰度化 → 高斯模糊 → Hough 线纠偏 → Otsu 自适应阈值）输入到 `pytesseract`。在有噪声、倾斜的测试扫描件上达到了 89.6%–93.8% 的置信度。 - **路径 2 — 目标检测：** 通过 `cv2.dnn` 使用预训练的 **MobileNet-SSD**（Caffe, VOC-trained）进行迁移学习。在多目标测试场景中检测到马 (100%)、汽车 (99.3%) 和人 (95.8%)，并通过 80% 的置信度阈值正确过滤掉了较弱的检测结果。 - 展示：**使用 AI 库、理解模型输出、迁移学习** 📁 [`Project4_Image_Text_Recognition/`](./Project4_Image_Text_Recognition) → `ocr_recognition.py`, `object_detection.py` ## 🛠️ 技术栈 | 类别 | 工具 | |---|---| | 语言 | Python 3.12 | | ML / 数据 | Scikit-Learn, Pandas, NumPy | | 计算机视觉 | OpenCV (`cv2.dnn`), Tesseract OCR (`pytesseract`) | | 概念 | 控制流、监督学习 (KNN)、TF-IDF + Cosine Similarity、迁移学习 (MobileNet-SSD) | ## 🚀 快速开始每个项目文件夹都是独立的，并包含其各自的 `README.md` 和运行说明。常规设置： ``` git clone https://github.com/KanwalAi/DecodeLabs-AI-Internship-2026.git cd DecodeLabs-AI-Internship-2026 # 安装 shared dependencies pip install scikit-learn pandas numpy opencv-python pytesseract # Project 4 的 System dependency (OCR engine) sudo apt-get install tesseract-ocr # Linux # brew install tesseract # Mac # 或从以下地址下载：https://github.com/UB-Mannheim/tesseract/wiki (Windows) ``` 然后 `cd` 进入任何项目文件夹，并按照其各自的 `README.md` 进行操作。 ## 🎓 学习之旅本次实习循序渐进地从 **确定性逻辑** → **统计学习** → **基于相似度的匹配** → **感知 AI**： ``` Project 1 Project 2 Project 3 Project 4 Rule-Based → Supervised → Content-Based → Computer Vision (if-else) Learning (KNN) Filtering (TF-IDF) (OCR + Detection) ``` 每个里程碑都直接建立在最后一个里程碑之上——从教机器遵循明确的规则，到教它识别结构化数据中的模式，再到匹配非结构化的偏好，最后解释原始像素和扫描文档。 ## 👩‍💻 作者 **Kanwal Fatima** AI 学生 | 软件开发者 📧 kanwal.ai.pk@gmail.com 🔗 [LinkedIn](https://www.linkedin.com/in/kanwal-fatima-72a352357/) 🐙 [GitHub](https://github.com/KanwalAi) ## 🏢 关于 DecodeLabs **DecodeLabs** — 您的数字实验室 🌐 [www.decodelabs.tech](https://www.decodelabs.tech) ✉️ decodelabs.tech@gmail.com 📍 大勒克瑙，印度 *作为 DecodeLabs 人工智能工业培训项目（2026 届）的一部分完成。*

标签：Apex, 人工智能, 推荐系统, 机器学习, 用户模式Hook绕过, 计算机视觉, 逆向工具