賽道 | 深蘭科技折桂 2021SemEval,雙賽道比拼中獲得“兩冠一亞”
2021-08-01SemEval是由國際計(jì)算語言學(xué)協(xié)會(Association for Computational Linguistics,ACL)主辦的國際語義評測大賽, SemEval是全球范圍內(nèi)影響力最強(qiáng)、規(guī)模最大、參賽人數(shù)最多的語義評測競賽。自2001年起,SemEval已成功舉辦十五屆,吸引了卡內(nèi)基梅隆大學(xué)、哈工大、中科院、微軟和百度等國內(nèi)外一流高校、頂級科研機(jī)構(gòu)和知名企業(yè)參與。
8 月 1 日- 6 日,SemEval2021與ACL-IJCNLP 2021 在泰國曼谷共同舉辦。深蘭科技作為人工智能頭部企業(yè),參加了“詞匯復(fù)雜度預(yù)測(任務(wù)一)”和“幽默性和冒犯性文本識別與評估(任務(wù)七)”兩個(gè)大任務(wù)中的6個(gè)子任務(wù),最終獲得2項(xiàng)第一、1項(xiàng)第二、1項(xiàng)第三,共計(jì)4項(xiàng)top3。團(tuán)隊(duì)在賽事中運(yùn)用的相關(guān)技術(shù)和模型已成功應(yīng)用于公司的自動化機(jī)器學(xué)習(xí)平臺中。
賽事介紹
任務(wù)一Lexical Complexity Prediction (LCP)
任務(wù)一為上下文中詞匯的復(fù)雜度預(yù)測任務(wù),任務(wù)分為兩個(gè)子任務(wù),子任務(wù)1為預(yù)測單個(gè)單詞的復(fù)雜度,子任務(wù)2為預(yù)測詞組(多詞表達(dá))的復(fù)雜度。其中數(shù)據(jù)樣例如下:
Table 1 數(shù)據(jù)樣例
結(jié)合數(shù)據(jù)可以看出當(dāng)前任務(wù)為一個(gè)回歸任務(wù),即基于上下文預(yù)測給定詞匯的復(fù)雜度,深蘭團(tuán)隊(duì)在兩個(gè)子任務(wù)的排名如下,團(tuán)隊(duì)在子任務(wù)1獲得了第二名,在子任務(wù)2中獲得了第一名。
子任務(wù)1 成績排名
子任務(wù)2 成績排名
任務(wù)七HaHackathon: Detecting and Rating Humor and Offense
任務(wù)七為幽默性和冒犯性文本識別與評估任務(wù),也是首次將幽默性和冒犯性識別結(jié)合起來的任務(wù),因?yàn)槲谋緦σ恍┯脩魜碚f是幽默的,但是對其他用戶來說可能是冒犯的,舉辦方共將任務(wù)劃分為幽默性識別和冒犯性識別,其中幽默性識別又被劃分為三個(gè)子任務(wù),共計(jì)4個(gè)子任務(wù),分別為:
子任務(wù)1a:預(yù)測文本是否會被視為幽默,為二分類任務(wù);
子任務(wù)1b:如果文本被歸類為幽默,預(yù)測它的幽默程度,為回歸任務(wù);
子任務(wù)1c:如果文本被歸類為幽默,預(yù)測當(dāng)前幽默評級是否有爭議,二分類任務(wù);
子任務(wù)2a:預(yù)測文本的冒犯程度,為回歸任務(wù)
深蘭團(tuán)隊(duì)同時(shí)參加了4個(gè)任務(wù),其中在任務(wù)1a、1c、2a取得了較好的成績,在子任務(wù)2a中獲得了第一名,在子任務(wù)1a中獲得了第三名,在子任務(wù)1c中獲得了第五名。
Task 1a
Task 2a
方案
上述幾個(gè)任務(wù)都是標(biāo)準(zhǔn)的分類任務(wù)或者回歸任務(wù),深蘭團(tuán)隊(duì)采取了統(tǒng)一的模型和訓(xùn)練方案,半自動化的完成模型的訓(xùn)練和融合。模型采用當(dāng)前主流的預(yù)訓(xùn)練模型,如BERT,基于預(yù)訓(xùn)練模型構(gòu)建分類和回歸模型,模型圖如下:
模型圖
模型主要分為以下幾個(gè)部分,文本輸入、CLS向量加權(quán)平均、全連接、Multi-sample dropout:
文本輸入針對句子級別分類或者回歸模型,一般為單個(gè)句子輸入或者兩個(gè)句子。例如對于上述Task7為單個(gè)句子輸入,而對于Task1則需要變成兩個(gè)句子輸入,句子一為待識別的詞,句子二為上下文文本。
BERT有兩個(gè)特殊的標(biāo)示符,分別是[CLS]、[SEP],其中[CLS]在訓(xùn)練的時(shí)候,用在Next Sentence Prediction任務(wù)上,[CLS]可以代表整個(gè)句子的語義表示,[CLS]通常用在句子級別的分類任務(wù)上。當(dāng)前任務(wù)也是句子級別的分類任務(wù),深蘭團(tuán)隊(duì)的模型也是采取[CLS]位置的向量進(jìn)行分類。為了提取更深層次的語義特征,深蘭團(tuán)隊(duì)不僅僅用BERT最后一層的輸出,而是選取多層[CLS]位置向量進(jìn)行加權(quán)平均,來代表整個(gè)句子的語義表示。
Multi-sample dropout 是dropout的一種變種,傳統(tǒng) dropout 在每輪訓(xùn)練時(shí)會從輸入中隨機(jī)選擇一組樣本(稱之為 dropout 樣本),而 multi-sample dropout 會創(chuàng)建多個(gè) dropout 樣本,然后平均所有樣本的損失,從而得到最終的損失,multi-sample dropout 共享中間的全連接層權(quán)重。通過綜合 M個(gè)dropout 樣本的損失來更新網(wǎng)絡(luò)參數(shù),使得最終損失比任何一個(gè) dropout 樣本的損失都低。這樣做的效果類似于對一個(gè)minibatch中的每個(gè)輸入重復(fù)訓(xùn)練 M 次。因此,它大大減少訓(xùn)練迭代次數(shù),從而大幅加快訓(xùn)練速度。由于大部分運(yùn)算發(fā)生在 dropout 層之前的BERT層中,Multi-sample dropout 并不會重復(fù)這些計(jì)算,對每次迭代的計(jì)算成本影響不大。實(shí)驗(yàn)表明,multi-sample dropout 還可以降低訓(xùn)練集和驗(yàn)證集的錯(cuò)誤率和損失。
損失函數(shù),當(dāng)前模型可以適用于分類和回歸任務(wù),只需改變損失函數(shù)即可,對于分類任務(wù)主要采用的損失函數(shù)為Cross Entropy 、Binary Cross Entropy、focal loss等,對于回歸任務(wù)主要采用的損失函數(shù)為均方誤差(Mean Square Error, MSE)、平均絕對誤差(Mean Absolute Error, MAE)等。
方案流程解讀
基于上述模型,深蘭的方案流程為:
1、選擇合適的預(yù)訓(xùn)練模型,首先基于構(gòu)建好的baseline選取多種預(yù)訓(xùn)練模型進(jìn)行測試,如BERT、RoBERTa、ALBERT、ERNIE等,之后選取最好的或者幾個(gè)比較好的預(yù)訓(xùn)練模型。
2、領(lǐng)域自適應(yīng)預(yù)訓(xùn)練(DAPT),利用在所屬的領(lǐng)域數(shù)據(jù)上繼續(xù)預(yù)訓(xùn)練,例如針對Task1,數(shù)據(jù)主要來源為醫(yī)療、圣經(jīng)、歐洲議會記錄,則選擇這幾個(gè)領(lǐng)域的數(shù)據(jù)繼續(xù)進(jìn)行掩碼語言模型任務(wù)(MLM),提升預(yù)訓(xùn)練模型在當(dāng)前領(lǐng)域上的性能。
3、任務(wù)自適應(yīng)預(yù)訓(xùn)練(TAPT),在當(dāng)前和任務(wù)相關(guān)的數(shù)據(jù)集上進(jìn)行掩碼語言模型(MLM)訓(xùn)練提升預(yù)訓(xùn)練模型在當(dāng)前數(shù)據(jù)集上的性能。
4、對抗訓(xùn)練,對抗訓(xùn)練是一種引入噪聲的訓(xùn)練方式,可以對參數(shù)進(jìn)行正則化,從而提升模型的魯棒性和泛化能力。深蘭團(tuán)隊(duì)采用FGM(Fast Gradient Method),通過在嵌入層加入擾動,從而獲得更穩(wěn)定的單詞表示形式和更通用的模型,以此提升模型效果。
5、偽標(biāo)簽,將測試集打上標(biāo)簽,并加入到訓(xùn)練集中,增大訓(xùn)練集的數(shù)量,提升最后的效果。
6、知識蒸餾,知識蒸餾由Hinton在2015年提出,主要應(yīng)用在模型壓縮上,通過知識蒸餾將大模型所學(xué)習(xí)到的有用信息來訓(xùn)練小模型,在保證性能差不多的情況下進(jìn)行模型壓縮。深蘭團(tuán)隊(duì)將利用模型壓縮的思想,采用模型融合的方案,融合多個(gè)不同的模型作為teacher模型,將要訓(xùn)練的作為student模型。
7、模型融合,為了更好地利用數(shù)據(jù),深蘭團(tuán)隊(duì)采用7折交叉驗(yàn)證,針對每個(gè)會使用了多種預(yù)訓(xùn)練模型,又通過改變不同的參數(shù)隨機(jī)數(shù)種子以及不同的訓(xùn)練策略訓(xùn)練了多個(gè)模型。最后采用線性回歸、邏輯回歸等機(jī)器學(xué)習(xí)模型進(jìn)行融合。
總 結(jié)
利用上述構(gòu)建的框架,深蘭團(tuán)隊(duì)參加了任務(wù)一和任務(wù)7共計(jì)6個(gè)子任務(wù),獲得了4項(xiàng)獎(jiǎng)項(xiàng),充分證明了方案的可行性,并且當(dāng)前方案相關(guān)技術(shù)以及模型成功應(yīng)用于公司的自動化機(jī)器學(xué)習(xí)平臺中,深蘭自動化機(jī)器學(xué)習(xí)平臺以低門檻、廣覆蓋、高精度、少成本的優(yōu)勢,為各個(gè)行業(yè)領(lǐng)域提供核心算法。
-
8項(xiàng)冠亞季軍收官ECCV2020,深蘭獲三大視覺頂會挑戰(zhàn)賽大滿貫
計(jì)算機(jī)視覺 -
與騰訊、哈工大同臺競技,深蘭獲自然語言處理領(lǐng)域國際頂會NAACL2021冠軍
計(jì)算機(jī)視覺 -
捷報(bào) | 深蘭科技“雙隊(duì)”出征CVPR2021 斬獲五冠共獲14項(xiàng)大獎(jiǎng)
計(jì)算機(jī)視覺 -
2022CVPR傳捷報(bào)丨深蘭科技再度折桂,連續(xù)4屆獲得CVPR挑戰(zhàn)賽冠軍
計(jì)算機(jī)視覺 -
深蘭科技奪冠CCKS2022“帶條件的分層級多答案問答”評測任務(wù)競賽
自然語言處理 -
PK 656 個(gè)對手!深蘭科技在全球頂級AI賽事kaggle競賽中再次奪冠
計(jì)算機(jī)視覺 -
一冠三亞二季!深蘭科技在EMNLP2022國際頂級賽事再創(chuàng)佳績
數(shù)據(jù)挖掘 -
6個(gè)獎(jiǎng)項(xiàng)!深蘭科技在CVPR 2023挑戰(zhàn)賽中再獲佳績
計(jì)算機(jī)視覺 -
6冠3亞2季!深蘭科技在RANLP2023國際賽事上斬獲11項(xiàng)大獎(jiǎng)
計(jì)算機(jī)視覺