SODIC2021人岗精准匹配模型前期基线

来源: | 作者:木贼 | 发布时间: 2021-05-02 | 2872 次浏览 | 🔊 点击朗读正文 ❚❚ ▶ | 分享到:

2021全球开放数据应用创新大赛人岗精准匹配模型

　　任何题目任何评价指标，做到一定程度之后都是摇奖，只是有些比较容易就达到这种程度，有些则困难一些。

　　这个题目以F1为评价指标，而且数据量为万级，因而就属于相对容易的那一类。因而这场比赛后期大概还是要靠运气来取得名次。

　　这类题目我们都已经非常熟悉了，因而不需要对题目的业务背景有过多的分析，我们便可以给出一个基本架构。

　　显然我们需要提取各种特征，然后用lightgbm训练二分类模型，然后预测。由于评价指标是F1，我们将测试样本的预测打分排序，按照训练集的正样本比例，取打分最高的那一部分样本预测为正样本即可。

　　线下测试也没什么好说的，我们随便选择一部分样本做线下测试集就好，或者分成若干折来做线下测试，反正估计都不怎么靠谱。

　　然后重点便是特征了。特征是否有效，可以利用线下测试来验证。不过根据经验，在这样的数据量下，如果一个特征在线下只提升了不到0.01，我们是无法判断它是否真的有效的。

　　我们把原始数据中数值型信息，如性别，工作年限等，直接作为特征；把非数值信息，种类数（nunique）比较少的，如应聘者专业，招聘对象等，直接作为类目型特征。

　　我们可以注意到，数据中有很多文本信息，如自荐信字数等。这些信息处理起来比较麻烦，我们直接统计一下字数作为特征。

　　但是项目经验和工作经历中的信息不能直接作为上述两类特征，因为这两张表有重复的求职者。我们便把上述两类特征做一些统计，统计一下数量，最大最小值等，作为特征。

　　然后就是求职者和岗位的交叉特征，用来描述求职者的情况与岗位的情况是否匹配。意外的是，我只能找到「求职者的工作地点与岗位的工作地点是否相同」这一个特征。

　　然后就是对主体的统计特征了。这个题目的主体有两个，求职者和岗位，我们可以分别统计一下它们的特征。

　　主体特征分为两类，没用到标签的和用到标签的。

　　对于没用到标签的，比如求职者出现的次数，岗位出现的次数，我们直接把训练集和测试集放到一起直接统计就可以。

　　对于用到标签的，比如求职者的正样本数，岗位的正样本数，我们需要分折统计。我们可以简单地分成四折，每次用其中的三折来统计另外一折。

　　这样我们提取出了20多个特征，然后用lightgbm训练一下，参数就随便设置设置。

　　然后我们可以统计出训练集的正样本比例大约是15%，我们就把测试集中预测打分最大的15%预测为正样本就好。

　　就这样，我们简简单单地做出了一版预测，线上大概得到了0.85。总觉得这个题目中的正负样本分类有点过于容易了，也许0.3才是更符合预期的成绩。