跳到主要內容區塊

中央研究院智財技轉處對外服務網

智財技轉對外服務網logo 智財技轉對外服務網logo
  • 網站導覽
  • 中央研究院
  • 網站導覽
  • 中央研究院
  • 最新消息
    • 本處消息
  • 資訊公開
    • 資訊公告
    • 法規輯要
    • 技術推廣刊物
    • 統計資訊
    • 智財小常識
    • 徵才資訊
  • 創作人
    • 智財技轉業務申辦暨查詢(僅限本院網域或VPN連線使用)
    • 研發成果智財保護
    • 與院外廠商進行共同研發
    • 研發成果技術移轉
    • 已專屬授權技術清單查詢
    • 制式文件
  • 廠商
    • 技術授權與產學合作諮詢
    • 材料移轉申請需求與諮詢
    • 探索技術(多元搜尋)
    • 熱搜技術
    • 技術授權或共同研發
    • 制式契約
  • 關於本處
    • 本處處長
    • 智財處介紹及業務窗口
    • 研管會介紹
  • 事務所專區
    • 登入
  • GlobeEN
    EN
    相關技術(依語言模型分析所得之相關性)
    分享至
    share to facebook share to line share to email print
    基於深度學習之聽視覺語音增強技術
    技術授權與產學合作諮詢

    基於深度學習之聽視覺語音增強技術
    本院覽號

    32T-1070207

    公告日期

    摘要

    語音增強的目地為消除背景噪音,還原目標語者的語音信號。在本技術中,我們結合聽覺訊號(即目標語者的語音)與視覺訊號(即目標語者的唇型變化),利用深度學習的技術,開發出一基於深度學習的聽視覺語音增強系統。

    技術優勢

    許多語音增強技術僅專注於處理語音信號。藉由加入影像資訊,我們提出的基於深度學習的語音增強系統,在主觀與客觀的噪音消除表現上,都明顯地勝過只處理語音的語音增強系統,不論他們是傳統方法或是基於最先進的架構。這樣的差距在背景噪音為非穩定噪音(即說話聲)時尤為明顯,處理非穩定噪音正是傳統語音增強方法所不擅長的。簡言之,我們提出的聽視覺語音增強系統,比起只處理語音的模型,更能有效消除背景雜訊。

    應用範圍

    有鑑於影像與多媒體資訊越來越容易取得,並且能提升語音品質而加強後端語音辨識系統之辨識能力,此聽視覺語音增強技術在未來有可能被廣泛地應用於目前所有基於語音界面的智慧裝置,例如車內語音助理,智慧家庭語音助理(即Amazon Alexa, Google Home)等等。

    創作人

    曹昱、王新民、侯人誠、王緒翔

    Sinica Logo

    檔案下載

    PDF-ICON基於深度學習之聽視覺語音增強技術
    最新消息
    • 本處消息
    資訊公開
    • 資訊公告
    • 法規輯要
    • 技術推廣刊物
    • 統計資訊
    • 智財小常識
    • 徵才資訊
    創作人
    • 智財技轉業務申辦暨查詢(僅限本院網域或VPN連線使用)
    • 研發成果智財保護
    • 與院外廠商進行共同研發
    • 研發成果技術移轉
    • 已專屬授權技術清單查詢
    • 制式文件
    廠商
    • 技術授權與產學合作諮詢
    • 材料移轉申請需求與諮詢
    • 探索技術(多元搜尋)
    • 熱搜技術
    • 技術授權或共同研發
    • 制式契約
    關於本處
    • 本處處長
    • 智財處介紹及業務窗口
    • 研管會介紹
    聯絡地址

    11529 台北市南港區研究院路二段 128 號

    電話

    +886-2-2787-2554

    電子郵件

    ip@gate.sinica.edu.tw

    • 政府網站資料開放宣告 | 隱私權及安全政策
    • 網站導覽 版號:V.3.1.34
    • © 2022 中央研究院智財技轉處 版權所有 通過AA無障礙網頁檢測