tamannagupta08/CS210_finalproject
GitHub: tamannagupta08/CS210_finalproject
基于数据预处理、特征工程和异常检测方法识别 Yelp 平台可疑评论的学术数据分析项目。
Stars: 0 | Forks: 0
本项目被组织成一个单独的 Jupyter notebook,按顺序讲解了从数据准备到分析的完整工作流。该 notebook 首先加载 Yelp 数据集,并准备一个易于处理的数据子集。接着,它依次执行合并相关数据集、选择有用的列,以及创建结构化数据集以供进一步使用等步骤。
在下一部分中,notebook 侧重于转换数据并为其建模做准备。这包括创建附加特征,以及将数据组织为适合分析的格式。该工作流被设计为顺序执行的,因此每个步骤都建立在前一步骤的基础之上。
notebook 的最后一部分包含可视化与分析,在此将对处理后的数据进行探索,以识别其中的模式和规律。结果通过图表和摘要输出进行呈现,有助于直观展示整体的发现。
该 notebook 旨在从上到下运行,并且所有需要的数据集都应放置在同一目录中。
标签:Apex, NoSQL, Python, Yelp评论, 代码示例, 开源安全, 异常检测, 推荐系统安全, 数据分析, 数据合并, 数据清洗, 数据科学, 数据预处理, 无后门, 机器学习, 欺诈检测, 水军识别, 特征工程, 虚假评论检测, 资源验证, 逆向工具