大數(shù)據(jù)挖掘技術(shù)創(chuàng)新 提升人崗匹配效率
來源:科技日報 作者:張佳星
日期:2019-08-08 10:18:36
在近日召開的KDD2019(國際數(shù)據(jù)挖掘與知識發(fā)現(xiàn)大會)上,我國數(shù)據(jù)挖掘領(lǐng)域的創(chuàng)新技術(shù)以論文的形式獲得發(fā)表。
“很多時候靜態(tài)文本無法充分表達(dá)人們內(nèi)心最深層的需求,而動態(tài)交互行為的文本偏好信息恰能輔助你理清內(nèi)心真實的需求。”北京大學(xué)計算機科學(xué)技術(shù)研究所研究員嚴(yán)睿表示,為了更好地為求職者和崗位之間達(dá)成匹配,北大團隊與BOSS直聘自然語言處理中心通過引入記憶模塊,首次利用簡歷文檔和崗位描述文檔歷史交互行為下的信息來學(xué)習(xí)潛在偏好的信息,把人類求職經(jīng)歷中的“偏好”體現(xiàn)在數(shù)據(jù)的“記憶”中。
KDD大會評審對該論文的反饋認(rèn)為:“全球范圍看,以往數(shù)據(jù)挖掘技術(shù)主要應(yīng)用于電商、金融等大領(lǐng)域,而在具有公共屬性行業(yè)的人力資源行業(yè)卻很少見,具有創(chuàng)新意義。”
“KDD的投稿今年采用雙盲式評審,并且不設(shè)置作者對審稿人意見的辯駁環(huán)節(jié)。作者并沒有為自己申辯的機會。盡管如此,針對我們發(fā)表的這篇文章,3位評審都對方法的創(chuàng)新性給予了高度肯定。”BOSS直聘自然語言處理中心負(fù)責(zé)人宋洋介紹,讓評審認(rèn)可的創(chuàng)新性在于,新模型加入了“真實世界”,也可以說是“真實情感”。
人類的記憶是有偏好的,讓數(shù)據(jù)也長出“記憶”,能更準(zhǔn)確地挖出大數(shù)據(jù)中有用的信息。之前的研究集中于對比“簡歷與崗位”在文本上的匹配度,而在現(xiàn)實世界中,除了靜態(tài)文本信息外,動態(tài)行為交互信息(例如求職招聘雙方各自的面試歷史記錄)中蘊含著對預(yù)測匹配更有幫助的因素。
“我們發(fā)現(xiàn),雙方的偏好也決定著匹配的準(zhǔn)確度。”宋洋表示,團隊利用記憶網(wǎng)絡(luò)對面試歷史記錄這一外部知識進(jìn)行學(xué)習(xí),并加入到模型參數(shù)中去,從而提升人崗匹配效果。
讓數(shù)據(jù)長出“記憶”,是不是符合人類群體的“記憶”?這個方法究竟能不能提高匹配準(zhǔn)確度呢?這些都需要實踐檢驗。
“我們基于BOSS直聘的數(shù)據(jù)集采用5個評測指標(biāo)對模型進(jìn)行驗證。”宋洋解釋,社會公共類的調(diào)查沒有真人實驗,但可以固定一個時間窗口來取求職者和招聘者雙方的歷史面試記錄,用來預(yù)測之后一段時間樣本集合內(nèi)的求職者和招聘者雙方是否發(fā)生匹配,這與實際情況是一致的,實驗結(jié)果也證明全新的數(shù)據(jù)挖掘技術(shù)優(yōu)于當(dāng)前最優(yōu)的人崗匹配方法。
據(jù)悉,作為世界數(shù)據(jù)挖掘領(lǐng)域最高級別的學(xué)術(shù)會議,今年KDD研究論文錄取率僅為14%,阿里巴巴、今日頭條等中國企業(yè)也有論文一并收入。BOSS直聘首席科學(xué)家薛延波應(yīng)邀在大會“人才與管理計算”工作坊上分享了關(guān)于職業(yè)科學(xué)的研究。
相關(guān)專家認(rèn)為,中國由于人口基數(shù)大、互聯(lián)網(wǎng)應(yīng)用發(fā)展成熟等特點,是大數(shù)據(jù)的主要產(chǎn)出國,如何有效地利用數(shù)據(jù),提高現(xiàn)有諸如職位對接、商務(wù)對接等的有效率,將真實世界的特點融入到大數(shù)據(jù)向知識的轉(zhuǎn)化中,亟待大數(shù)據(jù)挖掘技術(shù)的創(chuàng)新。例如,互聯(lián)網(wǎng)上存在著數(shù)億規(guī)模的求職者簡歷以及崗位招聘信息,有效的數(shù)據(jù)挖掘技術(shù)將大大提升人崗匹配效率,減少耗費比,對國民經(jīng)濟帶來良性作用的同時,讓每個人都能發(fā)揮出自己的價值。