Brandear拍卖数据挖掘竞赛直播(三)
来源: | 作者:木贼 | 发布时间: 2020-01-04 | 1106 次浏览 | 分享到:

  在前一篇中,我们提取了一些特征,并训练了一个lightgbm模型,取得了线下0.0505、线上0.0547的成绩。

  报春同学在看了我的文章之后,毫不掩饰地表达了鄙夷之情


图0-1 连知乎都看不下去要折叠的嘲讽

报春同学说她也要搞个「吊打木贼系列」,可以期待一下。(报春同学气鼓鼓地扭过头,说「哼!你这种菜鸡,我不穿女装也能吊打你!」)


图0-2 不穿女装的报春同学也很可怕(图片源自网络 ,侵删)


  那么我们大概接下来可以先从增加特征的方面来优化。





1. 落札表

  我先注意到了一张表rakusatsu.csv,其中rakusatsu汉字写作落札,就是中标的意思,也就是拍卖成交。


图1 中标表

  这张表结构和竞标表基本相同,汇入之后,发现数据和竞标表也比较相像,只是比竞标表少了很多行(Row,行列栏之分一向很混乱),大概算是竞标表的子集,因此感觉上没什么用;后面测试了一下,发现暂时确实没什么用。





2. 拍卖表

  那么我们再来观察一下拍卖表。这张表包含的列(Column)包括

会员标识,拍卖标识
商品种别标识,商品标识,状态标识,品牌标识,类型标识,类型组标识,线标识,颜色标识,男女别标识
再出品回数,参考价格,创建时间

对于标识类信息,我们可以提取一些统计特征;对于数值类信息,我们可以直接作为特征。其中的再出品回数的含义暂时还不能理解。

  另外我们注意到,拍卖表中每个拍卖只会出现一次,没有重复的拍卖。





3. 新增特征

  于是我们可以新增一些比较平常的基础统计特征,如下图所视


图3 特征清单

由于需要测试的特征不是特别多,我每次测试一个特征,如果有提升就保留,否则就丢弃。其中,提升超过0.001的,属于有较大提升,小于0.001但大于0.0001的,属于略有提升。至此,我们的特征数达到了28个。

  加了这些特征后,线下得到了大约0.0581的成绩,提升了大约0.0076;提交到线上,成绩大约0.0649,提升了0.0102。这进一步说明这个题目的不稳定。

  那么今天就到这里。代码见https://ndearAuction/tree/master/3https://www.github.com/sang1yu2/BrandearAuction/tree/master/3





  最后来背单词

落札(らくさつ㉧)        中标
回数(かいすう③)        回数
作成(さくせい㉧)        制作