shashanksraj/online-sexism-detection-ml

GitHub: shashanksraj/online-sexism-detection-ml

基于 NLP 特征工程和多种机器学习模型的在线文本性别歧视二分类检测实验项目。

Stars: 0 | Forks: 0

# 在线性别歧视检测 (ML/NLP) 一个专注于对在线文本进行二分类的机器学习项目，用于判断帖子是否包含性别歧视。该项目基于 NLP 预处理、特征工程和模型比较技术构建。 ## 概述本项目基于 SemEval 2023 Task 10：可解释的在线性别歧视检测。目标是对在线帖子进行分类，并探索不同的特征工程技术和模型对性能的影响。 ## 方法 - 对原始文本数据进行清洗和预处理（去除噪声、规范化、去除停用词） - 使用多种 NLP 技术提取特征： - TF-IDF - N-grams - 实现并比较了多种机器学习模型 - 使用以下指标评估性能： - Accuracy - Precision - F1 Score (weighted) ## 结果 - 比较了多种特征工程方法和模型的组合 - 基于评估指标确定了表现最佳的 pipeline - 观察了模型复杂度与泛化能力之间的权衡 ## 技术栈 - Python - Jupyter Notebook - Pandas - Scikit-learn - Natural Language Processing (NLP) ## 文件 - `sexism_detection_ml.ipynb` → 完整的实现，包括预处理、特征工程、建模和评估 ## 核心收获 - 将 NLP 技术应用于现实世界的文本分类问题 - 特征工程在提升模型性能方面的重要性 - 使用结构化的评估指标比较模型 - 理解不同建模方法之间的权衡

标签：Apex, F1 Score, N-grams, NLP, NoSQL, Python, Scikit-learn, SemEval 2023, SEO检索词, TF-IDF, 二分类, 人工智能, 仇恨言论检测, 准确率, 性别歧视检测, 情感分析, 数据预处理, 文本分类, 文本挖掘, 无后门, 机器学习, 模型比较, 特征工程, 用户模式Hook绕过, 网络内容安全, 逆向工具