伟徳国际官网登录入口軟件系統團隊師生的研究成果“Two-stage Semi-supervised Speaker Recognition with Gated Label Learning”目前被“The 33rd International Joint Conference on Artificial Intelligence(IJCAI-2024)”正式接收。IJCAI是全球人工智能領域的旗艦會議,由中國計算機學會(CCF)A類推薦。論文研究由博士生孟稼祥、碩士生劉菁瀚在王興梅老師和李博權老師的指導下完成,論文作者還包括香港理工大學Kong Aik Lee教授,是軟件系統團隊開展海内外合作研究的代表性成果。
論文的研究内容為說話人識别,是人工智能與模式識别領域的重要研究方向,在身份鑒别、訪問控制等重要任務中具有廣闊的應用前景。盡管當前說話人識别領域已取得一定研究進展,标注的話語數據匮乏仍是現有研究面臨的關鍵難題。
在計算機視覺任務中,半監督學習通過向無标注數據分配僞标簽解決了标注的圖像數據匮乏的問題。然而,由于話語數據類别遠超圖像、僞标簽的數量和質量難以平衡,導緻最先進的半監督學習方法仍難以應用于說話人識别任務。因此,該論文提出了一種創新的雙階段半監督說話人識别方法,在第一階段構建對比學習網絡以獲得話語數據的向量映射表示,在第二階段構建基于聚類和門限标簽學習的半監督學習網絡,以分配和選擇可靠的僞标簽數據。
論文的實驗結果顯示,作者提出的方法有效平衡了僞标簽數據的質量和數量,取得了卓越的說話人識别效果(等誤率1.18%),識别結果接近了全監督學習(等誤率0.96%)并顯著優于當前最先進的基線方法。