賽道 | 深蘭包攬SIGIR eCOM'21雙賽道冠軍 自研自動(dòng)特征工程框架神助攻
日前,信息檢索領(lǐng)域的國際重要會(huì)議SIGIR 2021正在線上舉行,深蘭科技DeepBlueAI團(tuán)隊(duì)參加了SIGIR eCom'21 競(jìng)賽,與來自NVIDIA、eBay、華東師范大學(xué)、樂天等知名企業(yè)和學(xué)校的團(tuán)隊(duì)同臺(tái)競(jìng)技,并在競(jìng)賽僅設(shè)的兩個(gè)賽道中均獲得冠軍。
這是DeepBlueAI團(tuán)隊(duì)繼2019年獲得該系列比賽冠軍以來的第二次奪冠,證明了深蘭在電商推薦系統(tǒng)領(lǐng)域的技術(shù)有著領(lǐng)先的地位。此外,更值得注意的是在第二個(gè)賽道,深蘭自研的自動(dòng)特征工程框架助力隊(duì)伍獲得了冠軍,證明了其自動(dòng)化機(jī)器學(xué)習(xí)的強(qiáng)大能力。
SIGIR eCom'21 競(jìng)賽由Coveo承辦,是在2021 SIGIR Workshop on eCommerce上組織的一場(chǎng)電商商品推薦的比賽。該比賽從2017年開始,每年舉辦一次,今年已是第5屆。
冠軍方案解讀
賽題介紹
SIGIR eCom'21 競(jìng)賽分為兩個(gè)賽題:
第一、商品推薦任務(wù)。賽題把一個(gè)會(huì)話分成前后兩部分,給出前面一部分的數(shù)據(jù),要求預(yù)測(cè)出后面會(huì)交互的商品,是一個(gè)大數(shù)據(jù)量的推薦問題。
第二、購買意圖預(yù)測(cè)任務(wù)。賽題給出一個(gè)有添加購物車行為的會(huì)話的前面一部分,要求預(yù)測(cè)最后用戶是不是真的會(huì)買這個(gè)商品,是一個(gè)二分類問題。
團(tuán)隊(duì)成績(jī)
比賽競(jìng)爭(zhēng)非常激烈,最終DeepBlueAI團(tuán)隊(duì)擊敗了NVIDIA團(tuán)隊(duì),在兩個(gè)任務(wù)都取得了冠軍。
數(shù)據(jù)分析
兩個(gè)任務(wù)使用的是同一批數(shù)據(jù),訓(xùn)練集測(cè)試集合起來一共有600多萬,其中有100萬會(huì)話數(shù)據(jù)和6萬多個(gè)商品。經(jīng)過分析,這兩個(gè)任務(wù)分別有以下難點(diǎn)。
對(duì)于商品推薦任務(wù):
首先數(shù)據(jù)量很大,需要對(duì)代碼質(zhì)量要求很高;
第二有30%的測(cè)試集會(huì)話,給的初始信息很少,怎么有效優(yōu)化冷啟動(dòng)的會(huì)話,提升得分?
第三原始數(shù)據(jù)給出的字段極為豐富,怎么有效利用這些信息?
對(duì)于預(yù)測(cè)購買意圖任務(wù),主要是這個(gè)任務(wù)的評(píng)分指標(biāo)很復(fù)雜:
首先,它定義了一個(gè)k,k表示第一次添加購物車之后會(huì)話還有幾條記錄。評(píng)分指標(biāo)要求對(duì)k越小的樣本預(yù)測(cè)正確獎(jiǎng)勵(lì)越高,針對(duì)這一點(diǎn),怎么設(shè)計(jì)模型或者策略能夠適應(yīng)這個(gè)機(jī)制?
第二,每個(gè)k是一個(gè)分類,最終得分是每個(gè)類樣本的平均準(zhǔn)確率之和。因?yàn)槭褂昧藴?zhǔn)確率(accuracy),加上正負(fù)樣本不平衡,導(dǎo)致對(duì)模型的精度要求非常高。
競(jìng)賽方案
對(duì)于商品推薦任務(wù),團(tuán)隊(duì)整體采用召回+排序的框架。
排序方面,團(tuán)隊(duì)嘗試了很多方法,但是提升的效果有限。召回在這個(gè)任務(wù)里更為重要,在嘗試了很多種方法后,團(tuán)隊(duì)最終使用了兩個(gè)效果較好的召回。
1. u2i_interact_i2i_itemcf:
先通過協(xié)同過濾的方法算出item與item之間的相似度,然后根據(jù)user歷史交互的item,推薦與它最相似的item。
2. u2url_url2i:
先統(tǒng)計(jì)訪問當(dāng)前url之后,下次訪問每個(gè)item的概率;然后根據(jù)用戶最后一個(gè)url推薦那些概率大的item。
對(duì)于預(yù)測(cè)購買意圖任務(wù):
首先是特征工程,團(tuán)隊(duì)采用了手動(dòng)特征與自動(dòng)特征工程相結(jié)合的方式。手動(dòng)特征方面,主要是提取一些比較明顯有效的特征,如用戶是否查看了添加購物車商品的細(xì)節(jié)、查看了多久、用戶一共交互了多少商品等比較直觀的特征,效果上評(píng)分指標(biāo)提升0.008;自動(dòng)特征工程則是利用深蘭自研autosmart框架提取的特征,這一部分特征效果提升0.002。
然后是后處理方面,針對(duì)評(píng)分指標(biāo)的特性,基于k值不同對(duì)每個(gè)分類單獨(dú)進(jìn)行閾值調(diào)整,達(dá)到本地最好效果。
-
8項(xiàng)冠亞季軍收官ECCV2020,深蘭獲三大視覺頂會(huì)挑戰(zhàn)賽大滿貫
計(jì)算機(jī)視覺 -
與騰訊、哈工大同臺(tái)競(jìng)技,深蘭獲自然語言處理領(lǐng)域國際頂會(huì)NAACL2021冠軍
計(jì)算機(jī)視覺 -
捷報(bào) | 深蘭科技“雙隊(duì)”出征CVPR2021 斬獲五冠共獲14項(xiàng)大獎(jiǎng)
計(jì)算機(jī)視覺 -
2022CVPR傳捷報(bào)丨深蘭科技再度折桂,連續(xù)4屆獲得CVPR挑戰(zhàn)賽冠軍
計(jì)算機(jī)視覺 -
深蘭科技奪冠CCKS2022“帶條件的分層級(jí)多答案問答”評(píng)測(cè)任務(wù)競(jìng)賽
自然語言處理 -
PK 656 個(gè)對(duì)手!深蘭科技在全球頂級(jí)AI賽事kaggle競(jìng)賽中再次奪冠
計(jì)算機(jī)視覺 -
一冠三亞二季!深蘭科技在EMNLP2022國際頂級(jí)賽事再創(chuàng)佳績(jī)
數(shù)據(jù)挖掘 -
6個(gè)獎(jiǎng)項(xiàng)!深蘭科技在CVPR 2023挑戰(zhàn)賽中再獲佳績(jī)
計(jì)算機(jī)視覺 -
6冠3亞2季!深蘭科技在RANLP2023國際賽事上斬獲11項(xiàng)大獎(jiǎng)
計(jì)算機(jī)視覺