【新聞晨報(bào)】上海本土AI企業(yè)深蘭科技刷榜NLP國際頂會(huì)挑戰(zhàn)賽,高比分奪魁
2023-12-06類似于體育界的奧運(yùn)會(huì),在國際頂會(huì)參賽也成為科研院所和科技巨頭的科技成果“試金石”。
近日,中國團(tuán)隊(duì)再次刷新了人工智能自然語言處理領(lǐng)域國際頂級(jí)會(huì)議EMNLP 2023任務(wù)挑戰(zhàn)賽的榜單。在本次“PragTag-2023”和“Violence Inciting Text Detection(VITD)”兩項(xiàng)任務(wù)競賽中,中國科研機(jī)構(gòu)深蘭科學(xué)院團(tuán)隊(duì)以“國產(chǎn)自研“多個(gè)預(yù)訓(xùn)練模型為基礎(chǔ),并結(jié)合多種自然語言處理技術(shù)在與弗吉尼亞大學(xué)、加利福尼亞大學(xué)等美國知名高校在內(nèi)的來自全球數(shù)十個(gè)團(tuán)隊(duì)同場競技中脫穎而出,奪得兩項(xiàng)冠軍。據(jù)悉,這也是深蘭多次登頂該會(huì)議榜單。
其中,“PragTag-2023”任務(wù)競賽的要求,是在論文評(píng)審過程中,對(duì)同行評(píng)審內(nèi)容中的每一句話,按照摘要、優(yōu)點(diǎn)、不足、建議、結(jié)構(gòu)、其他這六個(gè)類別進(jìn)行分類,以實(shí)現(xiàn)評(píng)審內(nèi)容細(xì)粒度的自動(dòng)分類,并通過整合各方的評(píng)審意見,為經(jīng)驗(yàn)不足的評(píng)審人提供評(píng)議幫助,該項(xiàng)任務(wù)的主要難點(diǎn)在于可參考的數(shù)據(jù)量少,缺少統(tǒng)一的分類標(biāo)準(zhǔn)。
為此,深蘭技術(shù)團(tuán)隊(duì)采用了兩個(gè)出色的預(yù)訓(xùn)練模型“RoBERTa”和“DeBERTa”作為語言模型底座,在對(duì)其進(jìn)行調(diào)整優(yōu)化的基礎(chǔ)上,同時(shí)融入了諸如注意力池化、最大池化、多折交叉驗(yàn)證、對(duì)抗訓(xùn)練等技術(shù),并經(jīng)過多組數(shù)據(jù)實(shí)驗(yàn),通過使用多個(gè)模型投票得到結(jié)果的方式,解決了相關(guān)難題,贏得這項(xiàng)任務(wù)競賽的冠軍。
“Violence Inciting Text Detection(暴力煽動(dòng)文本檢測)”任務(wù)競賽的內(nèi)容,則是檢測社交媒體上的文本是否包含暴力信息,并按照主動(dòng)暴力、被動(dòng)暴力、非暴力三個(gè)類別做分類,目的是對(duì)發(fā)生在孟加拉國和印度西孟加拉邦的各種形式的社區(qū)暴力行為進(jìn)行分類甄別,以及闡明發(fā)生這一復(fù)雜現(xiàn)象的緣由,并阻止同類事件的再次發(fā)生,緩解社會(huì)上的暴力傾向。
該任務(wù)的難點(diǎn)主要在于文本語言的特性,因?yàn)槊霞永Z雖然有2億多的使用人口,但本身還是屬于小語種,使用范圍小,可參考的文本數(shù)據(jù)也少,同時(shí)孟加拉語有著句子普遍超長、文本差異小、語意語境難以辨別的特點(diǎn),這就對(duì)計(jì)算機(jī)自然語言處理技術(shù)有著更高的要求。
為了解決以上難題,深蘭技術(shù)團(tuán)隊(duì)采用了“分而治之”的策略。針對(duì)小語種問題,團(tuán)隊(duì)選用了“XLM-RoBERTa”和“banglabert”兩個(gè)與孟加拉語的語言特點(diǎn)相適配的預(yù)訓(xùn)練模型;為了解決句子超長的問題,則采用了多種裁剪策略分別進(jìn)行實(shí)驗(yàn),不斷優(yōu)化語句裁剪效果;為了提升語言預(yù)訓(xùn)練模型的魯棒性,則通過在模型中加入注意力池化、最大池化、多折交叉驗(yàn)證、對(duì)抗訓(xùn)練、偽標(biāo)簽、multi-sample dropout等技術(shù),以增強(qiáng)模型承受故障和干擾的能力。
最終,深蘭團(tuán)隊(duì)以0.004分的優(yōu)勢,戰(zhàn)勝了包括弗吉尼亞大學(xué)、加利福尼亞大學(xué)、詹姆斯庫克大學(xué)等美國知名高校在內(nèi)的來自全球的27支參賽隊(duì)伍,奪得該任務(wù)競賽的冠軍。
據(jù)悉,EMNLP與ACL、NAACL并稱為三大全球自然語言處理領(lǐng)域頂級(jí)會(huì)議,由ACL旗下SIGDAT組織,在Google Scholar計(jì)算語言學(xué)刊物指標(biāo)中排名第二,每年匯集全球頂尖實(shí)驗(yàn)室組隊(duì)參加,共同探討最新進(jìn)展和成果。
-
【央視新聞】深蘭熊貓公交亮相首部反映交通運(yùn)輸業(yè)史詩紀(jì)錄片《交通中國》
媒體報(bào)道 -
央視《新聞聯(lián)播》采訪深蘭科技陳海波:為可持續(xù)發(fā)展貢獻(xiàn)中國科技力量
媒體報(bào)道 -
【上觀新聞】長寧企業(yè)研發(fā)的這款“缺陷檢測設(shè)備”為制造業(yè)生產(chǎn)裝上“火眼金睛”!
媒體報(bào)道 -
【經(jīng)濟(jì)日?qǐng)?bào)】深蘭科技公司貫通基礎(chǔ)研究與應(yīng)用開發(fā)——人工智能賦能傳統(tǒng)產(chǎn)業(yè)
媒體報(bào)道 -
【經(jīng)濟(jì)日?qǐng)?bào)】深蘭科技公司貫通基礎(chǔ)研究與應(yīng)用開發(fā)—— 人工智能賦能傳統(tǒng)產(chǎn)業(yè)
媒體報(bào)道 -
【河南日?qǐng)?bào)】深蘭機(jī)器人商丘制造基地在商丘市梁園區(qū)投產(chǎn)
媒體報(bào)道 -
樹洞救援武漢中心正式掛牌,深蘭用平臺(tái)和技術(shù)為公益賦能
公司新聞 -
深蘭科技開啟“海外名校產(chǎn)業(yè)博士計(jì)劃”,董事長陳海波被聘為上海交通大學(xué)博士生導(dǎo)師
公司新聞 -
出席第三屆“一帶一路”峰會(huì)的斯里蘭卡總統(tǒng)會(huì)見深蘭科技董事副總裁劉園桂一行
公司新聞 -
【每日經(jīng)濟(jì)】專訪深蘭科技董事長陳海波:大模型如何助力人類從“碳基生命”走向“硅基生命”?
媒體報(bào)道 -
深蘭科技科研團(tuán)隊(duì)6篇論文被國際醫(yī)學(xué)信息科學(xué)頂尖學(xué)術(shù)會(huì)議收錄
公司新聞 -
國家知識(shí)產(chǎn)權(quán)局公布《2023年度國家知識(shí)產(chǎn)權(quán)優(yōu)勢企業(yè)名單》,深蘭科技成功入選
公司新聞 -
深蘭科技董事長陳海波擔(dān)任上海市科學(xué)技術(shù)協(xié)會(huì)常委
公司新聞 -
深蘭科技500輛智能駕駛巴士訂單落地 ,人民日?qǐng)?bào)等多家央媒報(bào)道
媒體報(bào)道 -
泰國社會(huì)發(fā)展和人類安全部部長秘書率考察團(tuán)到訪深蘭科技
公司新聞 -
深蘭科技與一帶一路(國際)研究院簽署國際市場合作協(xié)議
公司新聞 -
【36氪】深蘭科技發(fā)布國內(nèi)首款個(gè)人記憶管理智能體——好記貓App
媒體報(bào)道 -
浦東創(chuàng)投集團(tuán)參與完成深蘭科技數(shù)億元Pre-IPO輪投資
公司新聞 -
央企國家隊(duì)重磅出手!中交集團(tuán)三大王牌集體"聯(lián)姻"深蘭科技
公司新聞 -
持續(xù)霸榜MedBench!深蘭科技醫(yī)療大模型綜合評(píng)測第一
公司新聞