Brandear拍卖数据挖掘竞赛直播（三）

来源: | 作者:木贼 | 发布时间: 2020-01-04 | 1693 次浏览 | 🔊 点击朗读正文 ❚❚ ▶ | 分享到:

　　在前一篇中，我们提取了一些特征，并训练了一个lightgbm模型，取得了线下0.0505、线上0.0547的成绩。

　　报春同学在看了我的文章之后，毫不掩饰地表达了鄙夷之情

图0-1 连知乎都看不下去要折叠的嘲讽

报春同学说她也要搞个「吊打木贼系列」，可以期待一下。（报春同学气鼓鼓地扭过头，说「哼！你这种菜鸡，我不穿女装也能吊打你！」）

图0-2 不穿女装的报春同学也很可怕（图片源自网络，侵删）

　　那么我们大概接下来可以先从增加特征的方面来优化。

1. 落札表

　　我先注意到了一张表rakusatsu.csv，其中rakusatsu汉字写作落札，就是中标的意思，也就是拍卖成交。

图1 中标表

　　这张表结构和竞标表基本相同，汇入之后，发现数据和竞标表也比较相像，只是比竞标表少了很多行（Row，行列栏之分一向很混乱），大概算是竞标表的子集，因此感觉上没什么用；后面测试了一下，发现暂时确实没什么用。

2. 拍卖表

　　那么我们再来观察一下拍卖表。这张表包含的列（Column）包括

会员标识，拍卖标识
商品种别标识，商品标识，状态标识，品牌标识，类型标识，类型组标识，线标识，颜色标识，男女别标识
再出品回数，参考价格，创建时间

对于标识类信息，我们可以提取一些统计特征；对于数值类信息，我们可以直接作为特征。其中的再出品回数的含义暂时还不能理解。

　　另外我们注意到，拍卖表中每个拍卖只会出现一次，没有重复的拍卖。

3. 新增特征

　　于是我们可以新增一些比较平常的基础统计特征，如下图所视

图3 特征清单

由于需要测试的特征不是特别多，我每次测试一个特征，如果有提升就保留，否则就丢弃。其中，提升超过0.001的，属于有较大提升，小于0.001但大于0.0001的，属于略有提升。至此，我们的特征数达到了28个。

　　加了这些特征后，线下得到了大约0.0581的成绩，提升了大约0.0076；提交到线上，成绩大约0.0649，提升了0.0102。这进一步说明这个题目的不稳定。

　　最后来背单词

落札（らくさつ㉧）　　　　　　　　中标
回数（かいすう③）　　　　　　　　回数
作成（さくせい㉧）　　　　　　　　制作