在前一篇中,我们提取了一些特征,并训练了一个lightgbm模型,取得了线下0.0505、线上0.0547的成绩。
报春同学在看了我的文章之后,毫不掩饰地表达了鄙夷之情
报春同学说她也要搞个「吊打木贼系列」,可以期待一下。(报春同学气鼓鼓地扭过头,说「哼!你这种菜鸡,我不穿女装也能吊打你!」)
那么我们大概接下来可以先从增加特征的方面来优化。
1. 落札表
我先注意到了一张表rakusatsu.csv,其中rakusatsu汉字写作落札,就是中标的意思,也就是拍卖成交。
这张表结构和竞标表基本相同,汇入之后,发现数据和竞标表也比较相像,只是比竞标表少了很多行(Row,行列栏之分一向很混乱),大概算是竞标表的子集,因此感觉上没什么用;后面测试了一下,发现暂时确实没什么用。
2. 拍卖表
那么我们再来观察一下拍卖表。这张表包含的列(Column)包括
会员标识,拍卖标识
商品种别标识,商品标识,状态标识,品牌标识,类型标识,类型组标识,线标识,颜色标识,男女别标识
再出品回数,参考价格,创建时间
对于标识类信息,我们可以提取一些统计特征;对于数值类信息,我们可以直接作为特征。其中的再出品回数的含义暂时还不能理解。
另外我们注意到,拍卖表中每个拍卖只会出现一次,没有重复的拍卖。
3. 新增特征
于是我们可以新增一些比较平常的基础统计特征,如下图所视
由于需要测试的特征不是特别多,我每次测试一个特征,如果有提升就保留,否则就丢弃。其中,提升超过0.001的,属于有较大提升,小于0.001但大于0.0001的,属于略有提升。至此,我们的特征数达到了28个。
加了这些特征后,线下得到了大约0.0581的成绩,提升了大约0.0076;提交到线上,成绩大约0.0649,提升了0.0102。这进一步说明这个题目的不稳定。
那么今天就到这里。代码见https://ndearAuction/tree/master/3https://www.github.com/sang1yu2/BrandearAuction/tree/master/3。
最后来背单词
落札(らくさつ㉧) 中标
回数(かいすう③) 回数
作成(さくせい㉧) 制作