国产一区二区三区中文,黄网av在线,国产精品第2页,国产成人精品国内自产拍免费看

首頁  >  財(cái)經(jīng)  >  財(cái)經(jīng)要聞

雷軍:第二屆音頻編碼器能力挑戰(zhàn)賽明年9月將同步亮相Interspeech 2026,已開放報(bào)名

2025-12-15 17:17:00

來源:新浪科技

  12月15日,小米公司創(chuàng)始人、董事長、首席執(zhí)行官雷軍發(fā)文宣布,小米聯(lián)合薩里大學(xué)、清華大學(xué)、海天瑞聲聯(lián)合發(fā)起第二屆音頻編碼器能力挑戰(zhàn)賽,將于明年9月同步亮相國際語音頂級(jí)會(huì)議 Interspeech 2026,目前已正式開放報(bào)名。

  雷軍表示,本次挑戰(zhàn)賽旨在推動(dòng)音頻編碼器對(duì)音頻大語言模型(LALM)的增效,歡迎報(bào)名!

  國際語音頂級(jí)會(huì)議 Interspeech 2026 將于明年 9 月在澳大利亞悉尼舉行。由小米、薩里大學(xué)、清華大學(xué)、海天瑞聲聯(lián)合發(fā)起的第二屆 Audio Encoder Capability Challenge(AECC)音頻編碼器能力挑戰(zhàn)賽將同步亮相 Interspeech 2026,目前已正式開放報(bào)名。

  當(dāng)前,音頻大語言模型(LALMs)發(fā)展迅速,但大多數(shù)主流模型在音頻前端編碼器上選擇非常單一,幾乎均基于 OpenAI Whisper Encoder。這種對(duì)單一技術(shù)的依賴不利于模型架構(gòu)的多樣化探索,也限制了 LALMs 整體能力的進(jìn)一步提升。為應(yīng)對(duì)音頻理解能力不斷增長的需求,本次挑戰(zhàn)賽將聚焦于音頻編碼器這一核心模塊,重點(diǎn)評(píng)估其在復(fù)雜真實(shí)場景下的理解與特征表示能力。

  一、比賽介紹

  1.1 評(píng)測方法

  本次挑戰(zhàn)賽采用統(tǒng)一的端到端訓(xùn)練和評(píng)估框架。參賽者只需提交預(yù)訓(xùn)練的編碼器模型,下游任務(wù)的訓(xùn)練和評(píng)估由主辦方完成。主辦方提供了開源的評(píng)估系統(tǒng) XARES-LLM (https://github.com/xiaomi-research/xares-llm)。該系統(tǒng)基于用戶提供的音頻編碼器自動(dòng)訓(xùn)練一個(gè)典型的 LALM。該系統(tǒng)會(huì)自動(dòng)下載訓(xùn)練數(shù)據(jù),訓(xùn)練模型,然后測試各種下游任務(wù),并為每個(gè)任務(wù)提供分?jǐn)?shù),如下圖所示。

  參賽者并不需要自己運(yùn)行 XARES-LLM,而只需把音頻編碼器按照一個(gè)簡單的接口說明和示例封裝,通過郵件發(fā)送給主辦方即可,大模型的訓(xùn)練和評(píng)估由主辦方完成。當(dāng)然,由于 XARES-LLM 是開源的,且只需 GTX4090 即可完成訓(xùn)練和評(píng)估,參賽者也可以自行使用該系統(tǒng)訓(xùn)練大模型、評(píng)估待提交的編碼器的性能,并和主辦方提供的基線系統(tǒng)比較。

  1.2訓(xùn)練數(shù)據(jù)

  和大多數(shù)比賽不同,本挑戰(zhàn)賽不僅重視模型設(shè)計(jì)和訓(xùn)練,也同樣重視數(shù)據(jù)的收集和利用。主辦方不規(guī)定具體的訓(xùn)練數(shù)據(jù)集。參賽者可以使用任何數(shù)據(jù)訓(xùn)練,包括在網(wǎng)絡(luò)上抓取的數(shù)據(jù),但訓(xùn)練數(shù)據(jù)必須是公開可訪問的,不得使用私有保密數(shù)據(jù)。參賽的模型既可以基于任何開源的預(yù)訓(xùn)練模型參數(shù),也可以從頭訓(xùn)練。

  同時(shí),海天瑞聲公司為比賽提供了一個(gè)補(bǔ)充數(shù)據(jù)集,供參賽者免費(fèi)使用。該數(shù)據(jù)集從八個(gè)商用數(shù)據(jù)集(King-ASR-457、King-ASR-958 等)提取構(gòu)建而成。其內(nèi)容涵蓋了豐富的日常環(huán)境噪聲,具體包括書店、健身房、地鐵、餐廳等多種室內(nèi)外場景的背景噪聲,以及家庭環(huán)境下的不同距離背景噪聲。

  此外,數(shù)據(jù)集還收錄了水流、腳步聲、戶外窗邊等特定非語音干擾聲,以及地鐵車廂在不同時(shí)段的運(yùn)行噪聲。嘯叫類數(shù)據(jù)則包含了通話、游戲和直播場景下的純凈嘯叫聲。

  車輛相關(guān)環(huán)境噪聲也是其重要組成部分,如機(jī)械噪聲、空調(diào)運(yùn)行聲和開窗風(fēng)噪,還有咖啡館、醫(yī)院、市場、步行街等生活場景的實(shí)錄環(huán)境聲。報(bào)名參賽者可以免費(fèi)訪問該數(shù)據(jù)集,細(xì)節(jié)詳見 :

  https://dataoceanai.github.io/Interspeech2026-Audio-Encoder-Challenge/King_NonSpeech-Dataset_en_20h.html。

  1.3 賽道設(shè)置

  我們?cè)O(shè)置了兩個(gè)賽道,賽道 A 關(guān)注大模型處理傳統(tǒng)分類任務(wù)、輸出分類標(biāo)簽的能力,賽道 B 關(guān)注大模型的理解和表達(dá)能力。參賽者無需選擇賽道。所有提交作品將同時(shí)接受兩個(gè)賽道的評(píng)估,兩個(gè)賽道獨(dú)立排名。

  ☆ ☆賽道 A :傳統(tǒng)分類任務(wù)

  ☆ ☆ 賽道 B :理解和表達(dá)任務(wù)

  二、報(bào)名參賽

  2.1 報(bào)名和提交方法

  在2026.01.25 11:59 PM AoE前填寫報(bào)名鏈接:https://docs.google.com/forms/d/1oaTnhh0HVX8K2oRdHKXsnyZfBWb7F6Oj8xZ6yAiMI74/viewform?edit_requested=true

  參考https://github.com/xiaomi-research/xares-llm/tree/main/example 封裝自己的編碼器,并通過https://github.com/xiaomi-research/xares-llm/tree/main/scripts/audio_encoder_checker.py 工具的檢查。

  在2026.02.12 11:59 PM AoE前,把編碼器代碼和模型文件打成 zip 包,通過郵件發(fā)送給主辦方。

  在2026.02.25 11:59 PM AoE前,把技術(shù)報(bào)告 PDF 文件郵件發(fā)送給主辦方。技術(shù)報(bào)告可以同時(shí)在 Interspeech 官方提交系統(tǒng)作為會(huì)議論文投稿。

  2.2 聯(lián)系方式

  主辦方郵箱:2026interspeech-aecc@dataoceanai.com

  挑戰(zhàn)賽官網(wǎng):https://dataoceanai.github.io/Interspeech2026-Audio-Encoder-Challenge/

免責(zé)聲明:本網(wǎng)對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。 本網(wǎng)站轉(zhuǎn)載圖片、文字之類版權(quán)申明,本網(wǎng)站無法鑒別所上傳圖片或文字的知識(shí)版權(quán),如果侵犯,請(qǐng)及時(shí)通知我們,本網(wǎng)站將在第一時(shí)間及時(shí)刪除。
主站蜘蛛池模板: 金山区| 鹰潭市| 东城区| 来宾市| 衡阳县| 崇文区| 枣阳市| 资源县| 阳谷县| 资源县| 汉源县| 昭觉县| 元谋县| 汶上县| 凯里市| 泸州市| 浦江县| 黎城县| 通海县| 黎川县| 吴忠市| 靖西县| 顺平县| 兖州市| 无极县| 五大连池市| 宜宾县| 边坝县| 泾源县| 凤山市| 葵青区| 尼木县| 梓潼县| 江山市| 富裕县| 武乡县| 马山县| 宣武区| 额济纳旗| 宾川县| 义乌市|