跳到主要內容區塊

中央研究院智財技轉處對外服務網

智財技轉對外服務網logo 智財技轉對外服務網logo
  • :::
  • 網站導覽
  • 中央研究院
  • English
  • 網站導覽
  • 中央研究院
  • 最新消息
    • 本處消息
  • 資訊公開
    • 資訊公告
    • 法規輯要
    • 技術推廣刊物
    • 統計資訊
    • 智財小常識
    • 徵才資訊
  • 創作人
    • 智財技轉業務申辦暨查詢(僅限本院網域或VPN連線使用)
    • 研發成果智財保護
    • 與院外廠商進行共同研發
    • 研發成果技術移轉
    • 已專屬授權技術清單查詢
    • 制式文件
  • 廠商
    • 廠商需求與諮詢
    • 材料移轉申請
    • 探索技術(多元搜尋)
    • 熱搜技術
    • 技術授權或共同研發
    • 制式契約
  • 關於本處
    • 本處處長
    • 智財處介紹及業務窗口
    • 研管會介紹
  • 事務所專區
    • 登入
EN
相關技術(依語言模型分析所得之相關性)
分享至
share to facebook share to line share to email print
基於深度學習之聽視覺語音增強技術

基於深度學習之聽視覺語音增強技術
本院覽號

32T-1070207

公告日期

摘要

語音增強的目地為消除背景噪音,還原目標語者的語音信號。在本技術中,我們結合聽覺訊號(即目標語者的語音)與視覺訊號(即目標語者的唇型變化),利用深度學習的技術,開發出一基於深度學習的聽視覺語音增強系統。

技術優勢

許多語音增強技術僅專注於處理語音信號。藉由加入影像資訊,我們提出的基於深度學習的語音增強系統,在主觀與客觀的噪音消除表現上,都明顯地勝過只處理語音的語音增強系統,不論他們是傳統方法或是基於最先進的架構。這樣的差距在背景噪音為非穩定噪音(即說話聲)時尤為明顯,處理非穩定噪音正是傳統語音增強方法所不擅長的。簡言之,我們提出的聽視覺語音增強系統,比起只處理語音的模型,更能有效消除背景雜訊。

應用範圍

有鑑於影像與多媒體資訊越來越容易取得,並且能提升語音品質而加強後端語音辨識系統之辨識能力,此聽視覺語音增強技術在未來有可能被廣泛地應用於目前所有基於語音界面的智慧裝置,例如車內語音助理,智慧家庭語音助理(即Amazon Alexa, Google Home)等等。

創作人

曹昱、王新民、侯人誠、王緒翔

Sinica Logo

檔案下載

PDF-ICON基於深度學習之聽視覺語音增強技術
::: 中央研究院 logo
  • 地址/Address

    11529 台北市南港區研究院路二段 128 號

  • 電話/Phone

    +886-2-2787-2554

  • Email

    ip@gate.sinica.edu.tw

最新消息
  • 本處消息
資訊公開
  • 資訊公告
  • 法規輯要
  • 技術推廣刊物
  • 統計資訊
  • 智財小常識
  • 徵才資訊
創作人
  • 智財技轉業務申辦暨查詢(僅限本院網域或VPN連線使用)
  • 研發成果智財保護
  • 與院外廠商進行共同研發
  • 研發成果技術移轉
  • 已專屬授權技術清單查詢
  • 制式文件
廠商
  • 廠商需求與諮詢
  • 材料移轉申請
  • 探索技術(多元搜尋)
  • 熱搜技術
  • 技術授權或共同研發
  • 制式契約
關於本處
  • 本處處長
  • 智財處介紹及業務窗口
  • 研管會介紹
  • © 2022 中央研究院智財技轉處 版權所有 通過AA無障礙網頁檢測