嫁接学习:本质上是一种迁移学习,一开始是用来描述将一个树模型的输出作为另一个树模型的输入的方法。此种方法与树的繁殖中的嫁接类似,故而得名。
使用场景
一.样本数量,丰富度对训练有明显提升的场景。
这个是前提条件。
二.样本分布不同的场景(特征分布,以及label分布)
特征分布不同的场景如:
1.风控,金融等领域近期样本特性大于远期样本特性。
赛题:ATEC风险大脑-支付风险识别 https://dc.cloud.alipay.com/index#/topic/intro?id=4
方案:https://zhuanlan.zhihu.com/p/45826529
2.不同国家,地区,生活行为习惯不同产生的数据也不同。
赛题:安泰杯跨境电商智能算法大赛(初赛)https://tianchi.aliyun.com/competition/entrance/231718/introduction
label分布不同的场景如:
1.回归问题中的label的均值,ctr问题中的转化率。
赛题:IJCAI-18 阿里妈妈搜索广告转化预测 https://tianchi.aliyun.com/competition/entrance/231647/introduction
2.多分类或多label中label类别数不同,数据不能放到同一个模型中训练。
赛题:"合肥高新杯"心电人机智能大赛 https://tianchi.aliyun.com/competition/entrance/231754/introduction
三.外力原因:
初赛和复赛给的数据差异性:
赛题:面向电信行业存量用户的智能套餐个性化匹配模型 https://www.datafountain.cn/competitions/311
注意事项
嫁接不是必需的:
如最近的 "合肥高新杯"心电人机智能大赛 中初赛是55类别的多label问题,复赛是34类别的多label问题。该问题神经网络比树模型表现优异,而神经网络在迁移学习上有天然优势,可以将在别的数据上训练而来的权重继续在新数据集上做finetune,所以可以替代。在本题中发现这两种方法带来的提升相差不大。但是也进一步说明了嫁接学习在神经网络上也是适用的。
嫁接不是万能的:
如安泰杯 —— 跨境电商智能算法大赛(复赛),复赛中原始数据的处理不当发生的泄露,初赛中使用的嫁接以及数据增强的方法在复赛都未带来明显的提升。
嫁接不一定是最优的:
如面向电信行业存量用户的智能套餐个性化匹配模型 https://www.datafountain.cn/competitions/311
在第一名公开的方法中,他们使用了将初赛复赛两部分数据合起来一起训练的方法,他们称为引导学习,相比于只用初赛数据来嫁接的方法提升更大。
嫁接和stacking的区别和联系
区别:
嫁接的母模型(第一层模型)和子模型(第二层次模型)使用的样本源不同,而stacking使用的是相同的样本源。另外一般嫁接只需要训练一次,而stacking需要做交叉验证来获得全部样本的预测值。
联系:
他们都是使用样本以及模型来提取特征,都是一种提取特征的方法。特征本质上是样本中蕴含的信息量,特征可以通过统计的方式来提取,也就是所谓的特征工程;
也可以使用模型来提取,如stacking;更可以通过更多的其他样本来提取,比如各种的迁移学习方式。所以,样本是特征,模型也是特征。