跳到主要內容區塊

中央研究院智財技轉處對外服務網

智財技轉對外服務網logo 智財技轉對外服務網logo
  • 網站導覽
  • 中央研究院
  • 網站導覽
  • 中央研究院
  • 最新消息
    • 本處消息
  • 資訊公開
    • 資訊公告
    • 法規輯要
    • 技術推廣刊物
    • 統計資訊
    • 智財小常識
    • 徵才資訊
  • 創作人
    • 智財技轉業務申辦暨查詢(僅限本院網域或VPN連線使用)
    • 研發成果智財保護
    • 與院外廠商進行共同研發
    • 研發成果技術移轉
    • 已專屬授權技術清單查詢
    • 制式文件
  • 廠商
    • 技術授權與產學合作諮詢
    • 材料移轉申請需求與諮詢
    • 探索技術(多元搜尋)
    • 熱搜技術
    • 技術授權或共同研發
    • 制式契約
  • 關於本處
    • 本處處長
    • 智財處介紹及業務窗口
    • 研管會介紹
  • 事務所專區
    • 登入
  • GlobeEN
    EN
    相關技術(依語言模型分析所得之相關性)
    分享至
    share to facebook share to line share to email print
    語意分析暨文件分類技術
    技術授權與產學合作諮詢

    語意分析暨文件分類技術
    本院覽號

    05T-1010224

    公告日期

    智財權狀態

    know-how

    摘要

    傳統分類方法通常利用字典比對、自然語言剖析、詞頻統計等方式取出關鍵字作為文件的特徵值,作為分類演算法的前處理。我們所發展的分類演算法則進一步納入時間因素與流行語等概念。 這項新的技術定期運用RSS機制,由特定來源網站匯入即時文章,再以自然語言擷取等傳統擷取文件特徵值的方式檢出語意關鍵詞,並統計分析其發生頻率與生命週期。同時,我們所發展的自我學習機制所訓練出的處理核心,已能有效處理時下部落格常用的口語用詞及熱門關鍵詞,例如:林來瘋、iphone4S等;亦能有效處理新聞媒體等網站使用的專業用詞。 我們利用pixnet公司收集的大量的部落格等網路文章測試,證實本演算法呈現令人滿意的分類準確率。

    技術優勢

    本文件分類演算法具有自我學習機制,可定期自網路上提供RSS之來源網站匯入即時文章並自我訓練,此訓練出的核心將能有效處理 時下部落格、口語用詞及熱門關鍵詞,例如:林來瘋、iphone4S。至於一般新聞等標準用字、用詞,也已經內含。所以,本演算法在分類準確率上,能有效處理含有口語用詞、熱門議題之文章。更適合,部落格等文章。 另一優點為效率,因本分類演算法在設計之時,已對效率做一處理,不同以往使用機器學習之分類演算法,需要較多時間於訓練及測試階段。本演算法已經過測試,達到每小時能處理超過10,000篇文章之效能。

    應用範圍

    可用於網路文件自動分類

    創作人

    何建明等

    Sinica Logo

    檔案下載

    PDF-ICON語意分析暨文件分類技術
    最新消息
    • 本處消息
    資訊公開
    • 資訊公告
    • 法規輯要
    • 技術推廣刊物
    • 統計資訊
    • 智財小常識
    • 徵才資訊
    創作人
    • 智財技轉業務申辦暨查詢(僅限本院網域或VPN連線使用)
    • 研發成果智財保護
    • 與院外廠商進行共同研發
    • 研發成果技術移轉
    • 已專屬授權技術清單查詢
    • 制式文件
    廠商
    • 技術授權與產學合作諮詢
    • 材料移轉申請需求與諮詢
    • 探索技術(多元搜尋)
    • 熱搜技術
    • 技術授權或共同研發
    • 制式契約
    關於本處
    • 本處處長
    • 智財處介紹及業務窗口
    • 研管會介紹
    聯絡地址

    11529 台北市南港區研究院路二段 128 號

    電話

    +886-2-2787-2554

    電子郵件

    ip@gate.sinica.edu.tw

    • 政府網站資料開放宣告 | 隱私權及安全政策
    • 網站導覽 版號:V.3.1.34
    • © 2022 中央研究院智財技轉處 版權所有 通過AA無障礙網頁檢測