Home

Awesome

Datacastle_Travel_Services_Predict

DataCastle 第二届智慧中国杯精品旅行服务成单预测解决方案。

How to run

  1. 配置 Configure 文件
base_path = '/d_2t/lq/competitions/data_castle/Datacastle_Travel_Services_Predict/'
# 数据清洗后的路径
cleaned_path = base_path + 'cleaned/'
# 生成的特征的路径
features_path = base_path + 'features/'
# 生成的模型可训练和预测的数据集
datasets_path = base_path + 'datasets/'

设置存放数据的根目录,并创建数据清洗 cleaned、生成的特征 features 和可训练预测的数据集 datasets 目录。

  1. 执行根目录下的 run.sh
#!/usr/bin/env bash

# feature engineering
cd features
sh run.sh
cd ../model/

# run single model
python xgboost_model.py
python lightgbm_model.py
python catboost_model.py

# run model stacking
# ...
  1. 执行 Stacking

model/ensemble 下运行 Stacking_Xgb_Param_Fine_Tuning.ipynbStacking.ipynb 完成模型的 Stacking

  1. 执行 Average

单模型和 stacking 结果保存到 model/ensemble/average 下,运行 Weight_Average_Analyse.ipynb 得到最终结果。

Feature Engineering

  1. User Profile: gen_user_features.py
  1. Order Comments: gen_comment_features.py
  1. Order History: gen_order_history_features.py
  1. APP Action: gen_user_action_features.py, gen_action_history_features.py 和 gen_advance_features.py
  1. 结合 Order 和 Action: gen_action_order_features.py

特征工程运行时间较长,完整的特征文件下载传送门:皇包车Rank5特征文件

Architecture

Teamates

License

This project is licensed under the terms of the MIT license.