KanwalAi/DecodeLabs-AI-Internship-2026
GitHub: KanwalAi/DecodeLabs-AI-Internship-2026
DecodeLabs AI 工程实习期间完成的四个渐进式 AI 实践项目集合,涵盖规则聊天机器人、监督学习分类、基于内容的推荐系统和计算机视觉 OCR 与目标检测。
Stars: 1 | Forks: 0
# 🤖 DecodeLabs AI Engineering 实习 — 2026
### Kanwal Fatima | Artificial Intelligence 赛道
这是在 **DecodeLabs AI Engineering 实习(2026 届)** 期间完成的 4 个实践 AI 项目的完整作品集——从基于规则的逻辑逐步进阶到监督学习、推荐系统和计算机视觉。



## 📋 项目索引
| # | 项目 | 核心概念 | 技术栈 |
|---|---------|---------------|------------|
| 1 | [基于规则的 AI 聊天机器人](./Project1_RuleBased_Chatbot) | 控制流与决策逻辑 | Python, Dictionaries |
| 2 | [数据分类](./Project2_Data_Classification) | 监督学习 (KNN) | Scikit-Learn, Iris Dataset |
| 3 | [AI 推荐逻辑](./Project3_Recommendation_System) | 基于内容的过滤 | TF-IDF, Cosine Similarity |
| 4 | [图像与文本识别](./Project4_Image_Text_Recognition) | 计算机视觉与 OCR | OpenCV, Tesseract, MobileNet-SSD |
## 🗂️ 项目详情
### 1️⃣ 基于规则的 AI 聊天机器人
**目标:** 构建一个使用纯 `if-else`/字典逻辑来响应预定义输入的聊天机器人——不涉及任何 ML。
- 带有清晰退出策略的连续 `while True` 输入循环
- 输入清洗 (`.lower().strip()`)
- 包含 20 多个意图的知识库,支持关键词后备匹配
- 展示:**控制流、决策逻辑、基础 AI 概念**
📁 [`Project1_RuleBased_Chatbot/`](./Project1_RuleBased_Chatbot) → `chatbot.py`
### 2️⃣ 使用 AI 进行数据分类
**目标:** 在真实数据集上训练监督分类模型并进行正确的评估。
- **数据集:** Iris(150 个样本,3 个类别,4 个特征)
- **Pipeline:** 特征缩放 (`StandardScaler`) → 训练集/测试集划分 (80/20) → `KNeighborsClassifier` (K=5)
- **评估:** 混淆矩阵、F1 分数、完整的分类报告
- **结果:** 测试集准确率 100%,F1 = 1.0000
- 展示:**数据处理、监督学习基础、模型训练**
📁 [`Project2_Data_Classification/`](./Project2_Data_Classification) → `classify.py`
### 3️⃣ AI 推荐逻辑
**目标:** 构建一个基于内容的推荐引擎,将用户技能与职业路径进行匹配。
- **数据集:** `raw_skills.csv` — 15 个职位角色 × 116 个独特技能标签(自主构建)
- **算法:** TF-IDF 向量化(惩罚通用技能,奖励特定技能)+ Cosine Similarity(幅度不变匹配)
- **Pipeline:** 数据摄取 → 评分 → 排序 → 过滤(输出 Top-3)
- 包含针对不匹配输入的冷启动检测
- 展示:**逻辑构建、模式匹配、推荐概念**
📁 [`Project3_Recommendation_System/`](./Project3_Recommendation_System) → `recommend.py`
### 4️⃣ 图像与文本识别(可选精通里程碑)
**目标:** 使用预训练模型实现光学字符识别 (OCR) 和目标检测。
- **路径 1 — OCR:** 完整的预处理 Pipeline(灰度化 → 高斯模糊 → Hough 线纠偏 → Otsu 自适应阈值)输入到 `pytesseract`。在有噪声、倾斜的测试扫描件上达到了 89.6%–93.8% 的置信度。
- **路径 2 — 目标检测:** 通过 `cv2.dnn` 使用预训练的 **MobileNet-SSD**(Caffe, VOC-trained)进行迁移学习。在多目标测试场景中检测到马 (100%)、汽车 (99.3%) 和人 (95.8%),并通过 80% 的置信度阈值正确过滤掉了较弱的检测结果。
- 展示:**使用 AI 库、理解模型输出、迁移学习**
📁 [`Project4_Image_Text_Recognition/`](./Project4_Image_Text_Recognition) → `ocr_recognition.py`, `object_detection.py`
## 🛠️ 技术栈
| 类别 | 工具 |
|---|---|
| 语言 | Python 3.12 |
| ML / 数据 | Scikit-Learn, Pandas, NumPy |
| 计算机视觉 | OpenCV (`cv2.dnn`), Tesseract OCR (`pytesseract`) |
| 概念 | 控制流、监督学习 (KNN)、TF-IDF + Cosine Similarity、迁移学习 (MobileNet-SSD) |
## 🚀 快速开始
每个项目文件夹都是独立的,并包含其各自的 `README.md` 和运行说明。常规设置:
```
git clone https://github.com/KanwalAi/DecodeLabs-AI-Internship-2026.git
cd DecodeLabs-AI-Internship-2026
# 安装 shared dependencies
pip install scikit-learn pandas numpy opencv-python pytesseract
# Project 4 的 System dependency (OCR engine)
sudo apt-get install tesseract-ocr # Linux
# brew install tesseract # Mac
# 或从以下地址下载:https://github.com/UB-Mannheim/tesseract/wiki (Windows)
```
然后 `cd` 进入任何项目文件夹,并按照其各自的 `README.md` 进行操作。
## 🎓 学习之旅
本次实习循序渐进地从 **确定性逻辑** → **统计学习** → **基于相似度的匹配** → **感知 AI**:
```
Project 1 Project 2 Project 3 Project 4
Rule-Based → Supervised → Content-Based → Computer Vision
(if-else) Learning (KNN) Filtering (TF-IDF) (OCR + Detection)
```
每个里程碑都直接建立在最后一个里程碑之上——从教机器遵循明确的规则,到教它识别结构化数据中的模式,再到匹配非结构化的偏好,最后解释原始像素和扫描文档。
## 👩💻 作者
**Kanwal Fatima**
AI 学生 | 软件开发者
📧 kanwal.ai.pk@gmail.com
🔗 [LinkedIn](https://www.linkedin.com/in/kanwal-fatima-72a352357/)
🐙 [GitHub](https://github.com/KanwalAi)
## 🏢 关于 DecodeLabs
**DecodeLabs** — 您的数字实验室
🌐 [www.decodelabs.tech](https://www.decodelabs.tech)
✉️ decodelabs.tech@gmail.com
📍 大勒克瑙,印度
*作为 DecodeLabs 人工智能工业培训项目(2026 届)的一部分完成。*
标签:Apex, 人工智能, 推荐系统, 机器学习, 用户模式Hook绕过, 计算机视觉, 逆向工具