Photo Credit: Jason Rosewell on UnsplashPhoto Credit: Jason Rosewell on Unsplash
元智大學研發的這套系統,分析超過一千筆病患嗓音資料,能在一秒內分析聲紋、推判聲帶異常狀況,是否屬於 8 種病徵。
數位時代/吳元熙
歌手在演藝圈最常遭遇的職業病,莫過於「聲帶受損」。但未來,不管是音樂家、老師,都有機會免除上醫院就診的舟車勞頓。元智大學研發的 AI 嗓音偵測系統,強調只需要持續對麥克風發出一秒的「啊」音,可透過演算法分析聲紋,判斷聲帶是否異常,正確率突破 94%。

蒐集超過千名患者聲音

這項研究花了 3 年時間,由元智大學電機系教授方士豪帶領研究團隊,結合亞東醫院耳鼻喉科的嗓音資料庫,收集超過一千名病患聲音,能推判是否有罹癌、聲帶結節、息肉、囊腫等 8 種病徵,目前已經獲得台灣專利,也正在申請中國大陸和美國的專利許可。
方士豪解釋,從數學模型上來看,嗓音分析和圖像辨識的差異並不大,但「數據蒐集」的難度卻高出許多。一開始的構想,是希望病患也可以唸一段文章,額外累積聲紋資訊,不過後來發現,當嘴巴發出「阿」音時,是最快速且有效蒐集數據的方式。

未來能應用在遠距醫療

方士豪謙虛表示,這套系統雖然已能準確判斷聲帶是否異常,但只知道是 8 種病徵之一,要進一步推論為何種疾病的準確度仍不足,「如果遇到聲樂家、專業歌手這些發音共鳴比較特殊的人,系統就可能被騙。」
他表示,其實「語音辨識」的複雜度比起嗓音分析更高,但這項研究主要目的是希望未來能成為遠距醫療利器,提供醫療匱乏地區遠端諮詢。由於聲帶位處喉部深處,非專科醫師與特殊儀器難以進行檢查,日後若配合物聯網環境,可在法規允許下早期發現和治療。
元智大學強調,與各國最新技術相比,在公開資料庫以及同樣的實驗條件下,嗓音分析系統可再從 98% 偵測率再進一步提升至 99.1%,為目前文獻中最好的效能。研究成果已發表於知名國際期刊,是全球第一篇基於深度學習偵測病理嗓音之論文。
經過亞東醫院耳鼻喉科醫師王棨德、語言治療師林峯全協助標記檔案後,這些蒐集而來的「嗓音資料庫」,也即將開放國際團隊使用。元智大學與亞東醫院將於今年 12 月在西雅圖合辦病理嗓音國際競賽,希望帶動台灣的國際聲望與學術能見度。
全文轉載自數位時代,原文標題:「啊」一秒測聲帶健康,元智大學AI嗓音分析準確率破9成4
「社企流」和「台達電子文教基金會」共同製作的《碳棄世代》專題重磅登場!一同來看看你我如何於生活中執行創新的減碳解方,迎向不需嘆氣的未來。 >>> 5 分鐘帶你認識《碳棄世代》 >>>《碳棄世代》完整專題這裡看

文章標籤