Home

Awesome

  1. 环境配置和依赖库:

    • python3

    • TensorFlow >=1.3

    • scikit-learn

    • Ubuntu 16.04, 128G内存, 8路显卡(能够并行完整跑完run.sh的环境,需要5张显卡,否则请修改run.sh,自己合理安排显卡的利用)

  2. 特征工程说明:

    • 基本特征:31个ID特征

    • 长度特征:多值特征的长度,共11个特征(如interest的个数)

    • 计数特征:uid的总数和正负样本数,uid和所有广告特性的正负样本数,共25个特征(如uid与advertiserId交叉ID出现的正负样本数)

    • 总特征:31+11+25=67个

  3. 模型结构与参数说明:

  1. 数据预处理:

    • 把初赛数据放在data/preliminary_data,把复赛数据放在data/final_data
    • python3 -u src/extract_features.py (如果不使用初赛数据,请在调用pre_data函数时,设置preliminary_path=None)
  2. 训练模型:

 python3 -u src/train.py gpu_id chunk_id chunk_num model_name sub_name
  1. ensemble
  python3 src/combine_nffm.py
  python3 src/combine_xdeepfm.py
  python3 src/combine.py
  1. pipeline
  bash run.sh