SODIC2021人岗精准匹配模型前期基线
来源: | 作者:木贼 | 发布时间: 2021-05-02 | 1868 次浏览 | 分享到:

2021全球开放数据应用创新大赛人岗精准匹配模型



1 评价指标

  任何题目任何评价指标,做到一定程度之后都是摇奖,只是有些比较容易就达到这种程度,有些则困难一些。

  这个题目以F1为评价指标,而且数据量为万级,因而就属于相对容易的那一类。因而这场比赛后期大概还是要靠运气来取得名次。



2 基本架构

  这类题目我们都已经非常熟悉了,因而不需要对题目的业务背景有过多的分析,我们便可以给出一个基本架构。

  显然我们需要提取各种特征,然后用lightgbm训练二分类模型,然后预测。由于评价指标是F1,我们将测试样本的预测打分排序,按照训练集的正样本比例,取打分最高的那一部分样本预测为正样本即可。



3 线下测试

  线下测试也没什么好说的,我们随便选择一部分样本做线下测试集就好,或者分成若干折来做线下测试,反正估计都不怎么靠谱。



4 特征

  然后重点便是特征了。特征是否有效,可以利用线下测试来验证。不过根据经验,在这样的数据量下,如果一个特征在线下只提升了不到0.01,我们是无法判断它是否真的有效的。

4.1 原始特征

  我们把原始数据中数值型信息,如性别工作年限等,直接作为特征;把非数值信息,种类数(nunique)比较少的,如应聘者专业招聘对象等,直接作为类目型特征。


4.2 文本特征

  我们可以注意到,数据中有很多文本信息,如自荐信字数等。这些信息处理起来比较麻烦,我们直接统计一下字数作为特征。


4.3 统计特征

  但是项目经验和工作经历中的信息不能直接作为上述两类特征,因为这两张表有重复的求职者。我们便把上述两类特征做一些统计,统计一下数量,最大最小值等,作为特征。


4.4 交叉特征

  然后就是求职者和岗位的交叉特征,用来描述求职者的情况与岗位的情况是否匹配。意外的是,我只能找到「求职者的工作地点与岗位的工作地点是否相同」这一个特征。


4.5 主体统计特征

  然后就是对主体的统计特征了。这个题目的主体有两个,求职者和岗位,我们可以分别统计一下它们的特征。

  主体特征分为两类,没用到标签的和用到标签的。

  对于没用到标签的,比如求职者出现的次数,岗位出现的次数,我们直接把训练集和测试集放到一起直接统计就可以。

  对于用到标签的,比如求职者的正样本数,岗位的正样本数,我们需要分折统计。我们可以简单地分成四折,每次用其中的三折来统计另外一折。



5 训练和预测

  这样我们提取出了20多个特征,然后用lightgbm训练一下,参数就随便设置设置。

  然后我们可以统计出训练集的正样本比例大约是15%,我们就把测试集中预测打分最大的15%预测为正样本就好。





  就这样,我们简简单单地做出了一版预测,线上大概得到了0.85。总觉得这个题目中的正负样本分类有点过于容易了,也许0.3才是更符合预期的成绩。

  代码参见人岗精准匹配模型基线