探秘云南省人工智能重點實驗室:自主研發App,實現108個語種互譯

10月16日,中國共產黨第二十次全國代表大會在北京人民大會堂開幕。云南省南亞東南亞區域國際傳播中心聯合昆明理工大學云南省人工智能重點實驗室(以下簡稱“實驗室”)、小語智能信息科技(云南)有限公司,通過人工智能翻譯,以小語AI主播形式,就緬甸讀者關注的問題進行解答。

該實驗室的前身是2005年成立的昆明理工大學智能信息處理重點實驗室,2014年、2015年先后被遴選為云南省高校模式識別與智能計算重點實驗室和云南省海量語言信息處理工程實驗室。2019年,經由云南省科技廳批準,依托昆明理工大學建設云南省人工智能重點實驗室,成為云南省首家以人工智能為研究方向的重點實驗室,2021年省重點實驗室考核評估等級為“優”。

在國際人才交流會召開前夕,記者來到昆明理工大學,探秘這個藏在高校里的神奇團隊。

實驗室常務副主任高盛祥介紹實驗室研發的系統

實驗室常務副主任高盛祥介紹實驗室研發的系統

邊聽邊翻譯

讓小語種交流不費力

會議室里,嘉賓正在發言,身后的大屏幕上,中越老緬柬越六種語言同步顯示著發言內容……

在實驗室展示廳里,這套南亞東南亞多語言會議系統的快速反應令人驚喜。“這套系統在翻譯緬甸語、老撾語等小語種方面非常準確流暢,比谷歌等搜索平臺翻譯的準確率高很多。”實驗室常務副主任、昆明理工大學副教授、博士高盛祥滿臉自豪。

工作人員點開緬甸語網站上一則關于自然災害的報道,通過實驗室研發的云嶺翻譯系統快速地翻譯成中文,準確、流暢,一目了然。同一則消息經過其他在線翻譯平臺翻譯,卻出現了斷句不當、詞不達意,翻譯出來的語句與新聞本身毫不相干,完全失真的情況。

高盛祥回憶,多年前,團隊在建設南亞、東南亞語言語料庫時,電腦鍵盤上沒有匹配的語種字符,工作起來異常困難。為了加快速度,團隊在全國尋找南亞、東南亞語言的文字識別軟件,結果發現根本沒有。于是,高盛祥帶領的團隊決定自己研發。經過多年的積累和改進,實驗室的南亞、東南亞語言OCR文字識別系統越來越成熟,在許多行業里得到了很好的運用。

引進高端人才

組建語言專家團隊

高盛祥介紹,在研發過程中,實驗室也曾面臨很多難題,比如機器翻譯等人工智能技術需要大規模標注語料,而懂南亞、東南亞語言的人少,語料構建的難度非常大,成本高。南亞、東南亞語言的形態比較復雜,相關語言信息處理的科研機構少,詞法句法解析等關鍵技術都不成熟,研發難度大。

針對這些困難,實驗室申請了國家及省的多個項目,獲得了數十項國家及省部級科研項目的支持,同時,培養和引進博士10余人,形成了穩定的南亞、東南亞語言信息處理技術團隊,并組建了一支50余人的由小語種教師及留學生組成的語言專家團隊,為語料采集、標注、語言評測、事件分析等提供語言服務支撐,還與清華大學、中科院自動化所、老撾國立大學、鵬城國家實驗室、OPPO、小牛等高校、科研院所和企業建立了長期合作關系,聯合開展研發和轉化工作,突破技術難題,取得了很好的經濟效益。

隨著云南區位優勢的凸顯以及“一帶一路”倡議的實施,實驗室迎來了高光時刻,“面向南亞、東南亞的交流合作,都亟需打破語言壁壘,實現不同國家之間的語言互通。但越、老、緬、柬、泰、烏爾都語等南亞、東南亞語言都屬于資源稀缺語言,機器翻譯、跨語言信息檢索、OCR文字識別、語音識別及合成等人工智能的關鍵技術都還不成熟,相關的軟硬件產品很少,對產業的支撐作用還不明顯。”高盛祥介紹,在這樣的情況下,實驗室開展語言語音信息處理研究,突破一系列關鍵技術,面向跨境旅游、跨境貿易、跨境商務交流、文化產品譯制、國際傳播分析、跨境大數據分析等應用場景研發智能翻譯機、多語言會議同傳系統等一系列軟硬件產品。

目前,該團隊研發的“云嶺翻譯”“小語洞聽”“小語洞見”及“小語聊聊”等系列小語種智能產品已投入運用。其中,越、老、緬、柬、泰5種語言語料庫規模在實驗室都達到了千萬級以上。這5國的語言翻譯,已經完全達到實用化程度。據介紹,實驗室在機器翻譯、跨語言檢索、語音識別、語音合成、圖像OCR識別等方面開展深入研究,取得了多項研究成果,部分研究成果填補了領域空白,達到國際領先水平;谙到y的成熟,實驗室已開發了掃描儀、掃描筆等多個產品。

馳援瑞麗抗疫一線

6天研發出翻譯App

據介紹,實驗室研發的漢語—南亞、東南亞語言神經機器翻譯平臺及系統,填補了多項南亞、東南亞語言信息處理空白,在公安、網信、旅游、跨境合作、貿易談判等領域得到較好應用。特別是在2021年的瑞麗疫情防控中,為當地醫生對緬甸籍確診病例的治療,提供了強有力的支持。

自新冠疫情發生以來,瑞麗市一直處在疫情防控第一線,當地的干部群眾和防疫工作人員承受了前所未有的壓力。長期生活在當地的外籍邊民,有的只會簡單的中文,而當地懂緬語的工作人員卻屈指可數。溝通不暢,嚴重影響了防疫工作進展,特別是醫護人員,因為語言不通,在給外籍確診病例的治療過程中,難度加大。

2021年4月4日,在瑞麗防控一線的工作人員收到了100臺由實驗室自主研發的云嶺翻譯機。6天后,安卓版“云嶺翻譯 瑞麗抗疫專用”App(以下簡稱“翻譯App”)正式上線了。原來,智能翻譯機數量有限,不能滿足抗疫人員的翻譯需求。得知這一情況,實驗室立即展開了翻譯App的研發工作。連續幾天的研發調試后,完成了安卓版翻譯App的研發。這個專用的翻譯App,為瑞麗抗疫提供了有力的支持和保證。

據了解,該翻譯App支持漢語與緬甸語、越南語、泰語、老撾語等語種的雙向翻譯,第二代版本達到了108個語種的雙向翻譯。截至今年8月底,該款App累計翻譯次數超過3000萬次。

研發納西象形文字輸入法

保護少數民族文化

除了語言翻譯,實驗室還成功開發了云南省招生考試信息化管理與服務平臺。該平臺于2006年逐步投入應用,完成全省高考、中考、自考、成考等各類考生的報名、考務、報志愿、錄取、報到等管理與服務功能,每年為100多萬名考生、2.5萬名管理用戶、5000余所各類學校提供服務,能同時支撐39萬名用戶使用。該成果獲得了云南省科技進步一等獎。

高盛祥介紹,試驗室還制作了納西東巴文字庫,建立納西象形文字符集,研發了納西英文、納西拼音、納西中文3種納西象形文字的輸入法,這將對少數民族文化的保護與傳承起到重要作用。此外,圖像識別也是實驗室研究的方向之一。云南山體多而險峻,地形較為復雜,檢查輸電線路需要花費大量的人力、物力和財力。結合輸電路巡維智能化需求,實驗室研發的輸電線路缺陷智能識別系統,支持輸電線路圖像質量判斷、低質量圖像高清化、圖像內容校驗,以及絕緣子自爆、污染等20余種缺陷的智能標注和識別,與傳統人工巡檢相比,智能識別系統只需根據圖片就能作出正確判斷,不僅確保了工人的安全,也提升了巡檢水平。

多專業融合

培養信息學科人才

“愿意學、能吃苦、有鉆研精神,即便不是計算機專業的新生,我們也歡迎!备呤⑾榻榻B,目前團隊里的非計算機專業學生有好幾個。2019年,一名來自云南曲靖的小伙正式加入云南省人工智能重點實驗室,他叫王琳欽,本科就讀于蘭州大學化學專業,跨專業考研進入昆明理工大學。經過實驗室兩年碩士階段的培養,因表現優秀被實驗室錄取,進行碩博連讀。目前,王琳欽博士二年級,參與語音合成、虛擬主播等研究工作。

為什么選擇這個實驗室?王琳欽說:“一是實驗室在南亞—東南亞語言的自然語言處理與機器翻譯、跨語言信息檢索及輿情分析、語音圖像等方面的研究屬于頂尖水平。二是團隊的務實精神。團隊老師都是腳踏實地一步一步做起來的,所以團隊的基礎和底蘊都非常好,氛圍也非常好。特別是加入團隊后,每周一晚上的學術交流例會和周末課題進展討論例會,讓我受益匪淺!

王琳欽回憶,研一的時候,他參與研發云南省招生考試信息化管理與服務平臺,凌晨2點還在實驗室里與老師及其他同學一起討論研發思路,討論系統的開發和調試!澳嵌螘r間,我的成長與收獲非常大,真正體會到了應該以什么樣的態度和精神去認真做一件事情!

王琳欽的經歷也正是實驗室“模塊式教學”的實踐。“培養和科研創新同等重要!备呤⑾榻榻B,實驗室率先創新了“模塊式教學”,探索多專業融合的信息學科人才培養模式,重組和優化專業培養方案,將不同專業的學生,根據能力需求進行模塊化課程教學,提升了學生的創新能力。該成果還獲得了云南省教學成果一等獎。

實驗室還呈現出有層次的“梯形結構”,老師的學歷都是碩士及以上,而從實驗室畢業的學生,進入了阿里巴巴、百度、騰訊、搜狐、360等互聯網知名企業。

據悉,實驗室團隊目前共有260余人,其中教授、副教授30余人,博士、碩士研究生200余人,擁有國家及省部級人才20余人,承擔了國家及省部級項目100余項,在國內外高水平會議及期刊發表論文400余篇,其中SCIEI檢索300余篇,授權發明專利80余項,登記軟件著作權200余項,榮獲省部級獎勵10余項。

本站轉載文章和圖片出于傳播信息之目的,如有版權異議,請在3個月內與本站聯系刪除或協商處理。凡署名"云南房網"的文章未經本站授權,不得轉載。爆料、授權:news@ynhouse.com。

相關資訊

猜您喜歡

參與討論

登錄 注冊

熱門評論