KrishnaPatel1985/Springer-Capital-Data-Engineering-Assessment
GitHub: KrishnaPatel1985/Springer-Capital-Data-Engineering-Assessment
面向推荐奖励业务的数据管道,通过数据清洗、时区转换和业务规则校验识别潜在的推荐欺诈行为。
Stars: 0 | Forks: 0
# 我的数据工程项目:识别推荐欺诈
你好!这是我为 Springer Capital 实习做的最终评估。我构建了一个数据管道,它获取原始推荐数据并进行清洗,以查明哪些奖励是真正有效的,哪些可能存在欺诈行为。
## 📝 我所做的工作
* **清洗数据**:我通过正确地将姓名和状态大写化,确保它们看起来更专业。
* **修正时间**:原始数据已经包含了时区信息,因此我成功将所有内容转换为雅加达当地时间,以便对本地业务更有用。
* **建立关联**:我合并了 7 个不同的文件,以查看到从第一次邀请到最终付款的整个流程。
* **应用规则**:我编写了一个脚本来检查付款是否发生在正确的时间。我的最终报告将所有内容筛选为所需的 **46 行**。
## 📂 文件夹内容
* `Referral_Data_Pipeline.ipynb`:这是存放我所有 Python 代码的地方。
* `final_assessment_report.csv`:包含 46 条推荐记录的最终“清洁”列表。
* `Dockerfile` & `requirements.txt`:这些文件旨在让任何人都能轻松地在容器中运行我的代码。
## 🚀 如何运行
如果你安装了 Docker,只需构建镜像并运行即可!
1. `docker build -t my-pipeline .`
2. `docker run my-pipeline`
标签:Docker, ETL, JavaCC, NoSQL, Python, 业务逻辑验证, 代码示例, 安全防御评估, 推荐反作弊, 数据分析, 数据工程, 数据清洗, 数据管道, 数据规范化, 无后门, 时区转换, 欺诈检测, 用户增长安全, 请求拦截, 软件工程, 逆向工具, 金融科技