Home

Awesome

2018-CCF-BDCI-China-Unicom-Research-Institute-top2

===============================================================================================================

主办方:中国计算机学会 & DataFountain & 中国联通研究院

赛道:2018-CCF大数据与计算智能大赛-面向电信行业存量用户的智能套餐个性化匹配模型

赛道链接https://www.datafountain.cn/competitions/311/details/data-evaluation
赛程时间2018.08.28-2018.11.11
参与人:郭大林有夕小兔子乖乖
百度云盘下载链接:为避免数据丢失,提供数据集下载地址链接:https://pan.baidu.com/s/1RoGBAknW7O_AfS-x6CSHWA 提取码:bgk2

数据集解释:官方下载数据集命名可能不一样
百度云分享数据集我将初赛训练集和测试集分别命名为:train_all.csv,test_1.csv
百度云分享数据集我将复赛训练集和测试集分别命名为:train_2.csv,test_2.csv

1.数据说明

字段中文名数据类型说明
USERID用户IDVARCHAR2(50)用户编码,标识用户的唯一字段
current_type套餐VARCHAR2(500)/
service_type套餐类型VARCHAR2(10)0:23G融合,1:2I2C,2:2G,3:3G,4:4G
is_mix_service是否固移融合套餐VARCHAR2(10)1.是 0.否
online_time在网时长VARCHAR2(50)/
1_total_fee当月总出账金额_月NUMBER单位:元
2_total_fee当月前1月总出账金额_月NUMBER单位:元
3_total_fee当月前2月总出账金额_月NUMBER 单位:元
4_total_fee当月前3月总出账金额_月NUMBER单位:元
month_traffic当月累计-流量NUMBER单位:MB
many_over_bill连续超套VARCHAR2(500)1-是,0-否
contract_type合约类型VARCHAR2(500)ZBG_DIM.DIM_CBSS_ACTIVITY_TYPE
contract_time合约时长VARCHAR2(500)/
is_promise_low_consume是否承诺低消用户VARCHAR2(500)1.是 0.否
net_service网络口径用户VARCHAR2(500)20AAAAAA-2G
pay_times交费次数NUMBER单位:次
pay_num交费金额NUMBER单位:元
last_month_traffic上月结转流量NUMBER单位:MB
local_trafffic_month月累计-本地数据流量NUMBER单位:MB
local_caller_time本地语音主叫通话时长NUMBER单位:分钟
service1_caller_time套外主叫通话时长NUMBER单位:分钟
service2_caller_timeService2_caller_timeNUMBER单位:分钟
gender性别varchar2(100)01.男 02女
age年龄varchar2(100)/
complaint_level投诉重要性VARCHAR2(1000)1:普通,2:重要,3:重大
former_complaint_num交费金历史投诉总量NUMBER单位:次
former_complaint_fee历史执行补救费用交费金额NUMBER单位:分

2.配置环境与依赖库

3.运行代码步骤说明

#!/usr/bin/env bash
python ./src/w2v_feature.py
python ./src/stacking_model.py
python ./src/w2v_feature.py
python ./src/model.py
运行两次 w2v_feature.py是为了 增大差异

4.特征工程

    我们特征工程所有特征命名为列**features**:包括原始特征,差值特征,W2V特征和stacking_features特征。         
    其中原始特征包括:origin_num_feature原始数值特征,原始类别特征origin_cate_feature      
    features = base_features+cont_features+diff_features+w2v_features+stacking_features    

5.模型训练

最终成绩:线上复赛B:0.838

6.w2v图tsne.png

详见:plot.py(2018.12.03更新)