波多野结衣av免费观看 电影在线观看, 他原本的国产午夜激无码av毛片不卡十, 日本丰满脂肪人人爱视频在线观看50路, 1313午夜精品理论片无码不卡刘太阳,国产无套粉嫩白浆在线,中文字幕亚洲国语对白,九九AV福到导航,奇米影音国产综合欧美二区,亚洲日韩国产区一区二区三区

深蘭科技

【新聞晨報】上海本土AI企業(yè)深蘭科技刷榜NLP國際頂會挑戰(zhàn)賽,高比分奪魁

2023-12-06

類似于體育界的奧運會,在國際頂會參賽也成為科研院所和科技巨頭的科技成果“試金石”。

近日,中國團隊再次刷新了人工智能自然語言處理領(lǐng)域國際頂級會議EMNLP 2023任務(wù)挑戰(zhàn)賽的榜單。在本次“PragTag-2023”和“Violence Inciting Text Detection(VITD)”兩項任務(wù)競賽中,中國科研機構(gòu)深蘭科學(xué)院團隊以“國產(chǎn)自研“多個預(yù)訓(xùn)練模型為基礎(chǔ),并結(jié)合多種自然語言處理技術(shù)在與弗吉尼亞大學(xué)、加利福尼亞大學(xué)等美國知名高校在內(nèi)的來自全球數(shù)十個團隊同場競技中脫穎而出,奪得兩項冠軍。據(jù)悉,這也是深蘭多次登頂該會議榜單。

undefined

其中,“PragTag-2023”任務(wù)競賽的要求,是在論文評審過程中,對同行評審內(nèi)容中的每一句話,按照摘要、優(yōu)點、不足、建議、結(jié)構(gòu)、其他這六個類別進行分類,以實現(xiàn)評審內(nèi)容細粒度的自動分類,并通過整合各方的評審意見,為經(jīng)驗不足的評審人提供評議幫助,該項任務(wù)的主要難點在于可參考的數(shù)據(jù)量少,缺少統(tǒng)一的分類標準。

為此,深蘭技術(shù)團隊采用了兩個出色的預(yù)訓(xùn)練模型“RoBERTa”和“DeBERTa”作為語言模型底座,在對其進行調(diào)整優(yōu)化的基礎(chǔ)上,同時融入了諸如注意力池化、最大池化、多折交叉驗證、對抗訓(xùn)練等技術(shù),并經(jīng)過多組數(shù)據(jù)實驗,通過使用多個模型投票得到結(jié)果的方式,解決了相關(guān)難題,贏得這項任務(wù)競賽的冠軍。

undefined

“Violence Inciting Text Detection(暴力煽動文本檢測)”任務(wù)競賽的內(nèi)容,則是檢測社交媒體上的文本是否包含暴力信息,并按照主動暴力、被動暴力、非暴力三個類別做分類,目的是對發(fā)生在孟加拉國和印度西孟加拉邦的各種形式的社區(qū)暴力行為進行分類甄別,以及闡明發(fā)生這一復(fù)雜現(xiàn)象的緣由,并阻止同類事件的再次發(fā)生,緩解社會上的暴力傾向。

該任務(wù)的難點主要在于文本語言的特性,因為孟加拉語雖然有2億多的使用人口,但本身還是屬于小語種,使用范圍小,可參考的文本數(shù)據(jù)也少,同時孟加拉語有著句子普遍超長、文本差異小、語意語境難以辨別的特點,這就對計算機自然語言處理技術(shù)有著更高的要求。

為了解決以上難題,深蘭技術(shù)團隊采用了“分而治之”的策略。針對小語種問題,團隊選用了“XLM-RoBERTa”和“banglabert”兩個與孟加拉語的語言特點相適配的預(yù)訓(xùn)練模型;為了解決句子超長的問題,則采用了多種裁剪策略分別進行實驗,不斷優(yōu)化語句裁剪效果;為了提升語言預(yù)訓(xùn)練模型的魯棒性,則通過在模型中加入注意力池化、最大池化、多折交叉驗證、對抗訓(xùn)練、偽標簽、multi-sample dropout等技術(shù),以增強模型承受故障和干擾的能力。

最終,深蘭團隊以0.004分的優(yōu)勢,戰(zhàn)勝了包括弗吉尼亞大學(xué)、加利福尼亞大學(xué)、詹姆斯庫克大學(xué)等美國知名高校在內(nèi)的來自全球的27支參賽隊伍,奪得該任務(wù)競賽的冠軍。

據(jù)悉,EMNLP與ACL、NAACL并稱為三大全球自然語言處理領(lǐng)域頂級會議,由ACL旗下SIGDAT組織,在Google Scholar計算語言學(xué)刊物指標中排名第二,每年匯集全球頂尖實驗室組隊參加,共同探討最新進展和成果。


Document