KrishnaPatel1985/Springer-Capital-Data-Engineering-Assessment

GitHub: KrishnaPatel1985/Springer-Capital-Data-Engineering-Assessment

面向推荐奖励业务的数据管道，通过数据清洗、时区转换和业务规则校验识别潜在的推荐欺诈行为。

Stars: 0 | Forks: 0

# 我的数据工程项目：识别推荐欺诈你好！这是我为 Springer Capital 实习做的最终评估。我构建了一个数据管道，它获取原始推荐数据并进行清洗，以查明哪些奖励是真正有效的，哪些可能存在欺诈行为。 ## 📝 我所做的工作 * **清洗数据**：我通过正确地将姓名和状态大写化，确保它们看起来更专业。 * **修正时间**：原始数据已经包含了时区信息，因此我成功将所有内容转换为雅加达当地时间，以便对本地业务更有用。 * **建立关联**：我合并了 7 个不同的文件，以查看到从第一次邀请到最终付款的整个流程。 * **应用规则**：我编写了一个脚本来检查付款是否发生在正确的时间。我的最终报告将所有内容筛选为所需的 **46 行**。 ## 📂 文件夹内容 * `Referral_Data_Pipeline.ipynb`：这是存放我所有 Python 代码的地方。 * `final_assessment_report.csv`：包含 46 条推荐记录的最终“清洁”列表。 * `Dockerfile` & `requirements.txt`：这些文件旨在让任何人都能轻松地在容器中运行我的代码。 ## 🚀 如何运行如果你安装了 Docker，只需构建镜像并运行即可！ 1. `docker build -t my-pipeline .` 2. `docker run my-pipeline`

标签：Docker, ETL, JavaCC, NoSQL, Python, 业务逻辑验证, 代码示例, 安全防御评估, 推荐反作弊, 数据分析, 数据工程, 数据清洗, 数据管道, 数据规范化, 无后门, 时区转换, 欺诈检测, 用户增长安全, 请求拦截, 软件工程, 逆向工具, 金融科技