跳到主要內容區塊

中央研究院智財技轉處對外服務網

智財技轉對外服務網logo 智財技轉對外服務網logo
  • :::
  • 網站導覽
  • 中央研究院
  • English
  • 網站導覽
  • 中央研究院
  • 最新消息
    • 本處消息
  • 資訊公開
    • 資訊公告
    • 法規輯要
    • 技術推廣刊物
    • 統計資訊
    • 智財小常識
    • 徵才資訊
  • 創作人
    • 智財技轉業務申辦暨查詢(僅限本院網域或VPN連線使用)
    • 研發成果智財保護
    • 與院外廠商進行共同研發
    • 研發成果技術移轉
    • 已專屬授權技術清單查詢
    • 制式文件
  • 廠商
    • 廠商需求與諮詢
    • 材料移轉申請
    • 探索技術(多元搜尋)
    • 熱搜技術
    • 技術授權或共同研發
    • 制式契約
  • 關於本處
    • 本處處長
    • 智財處介紹及業務窗口
    • 研管會介紹
  • 事務所專區
    • 登入
EN
相關技術(依語言模型分析所得之相關性)
分享至
share to facebook share to line share to email print
語意分析暨文件分類技術

語意分析暨文件分類技術
本院覽號

05T-1010224

公告日期

智財權狀態

know-how

摘要

傳統分類方法通常利用字典比對、自然語言剖析、詞頻統計等方式取出關鍵字作為文件的特徵值,作為分類演算法的前處理。我們所發展的分類演算法則進一步納入時間因素與流行語等概念。 這項新的技術定期運用RSS機制,由特定來源網站匯入即時文章,再以自然語言擷取等傳統擷取文件特徵值的方式檢出語意關鍵詞,並統計分析其發生頻率與生命週期。同時,我們所發展的自我學習機制所訓練出的處理核心,已能有效處理時下部落格常用的口語用詞及熱門關鍵詞,例如:林來瘋、iphone4S等;亦能有效處理新聞媒體等網站使用的專業用詞。 我們利用pixnet公司收集的大量的部落格等網路文章測試,證實本演算法呈現令人滿意的分類準確率。

技術優勢

本文件分類演算法具有自我學習機制,可定期自網路上提供RSS之來源網站匯入即時文章並自我訓練,此訓練出的核心將能有效處理 時下部落格、口語用詞及熱門關鍵詞,例如:林來瘋、iphone4S。至於一般新聞等標準用字、用詞,也已經內含。所以,本演算法在分類準確率上,能有效處理含有口語用詞、熱門議題之文章。更適合,部落格等文章。 另一優點為效率,因本分類演算法在設計之時,已對效率做一處理,不同以往使用機器學習之分類演算法,需要較多時間於訓練及測試階段。本演算法已經過測試,達到每小時能處理超過10,000篇文章之效能。

應用範圍

可用於網路文件自動分類

創作人

何建明等

Sinica Logo

檔案下載

PDF-ICON語意分析暨文件分類技術
::: 中央研究院 logo
  • 地址/Address

    11529 台北市南港區研究院路二段 128 號

  • 電話/Phone

    +886-2-2787-2554

  • Email

    ip@gate.sinica.edu.tw

最新消息
  • 本處消息
資訊公開
  • 資訊公告
  • 法規輯要
  • 技術推廣刊物
  • 統計資訊
  • 智財小常識
  • 徵才資訊
創作人
  • 智財技轉業務申辦暨查詢(僅限本院網域或VPN連線使用)
  • 研發成果智財保護
  • 與院外廠商進行共同研發
  • 研發成果技術移轉
  • 已專屬授權技術清單查詢
  • 制式文件
廠商
  • 廠商需求與諮詢
  • 材料移轉申請
  • 探索技術(多元搜尋)
  • 熱搜技術
  • 技術授權或共同研發
  • 制式契約
關於本處
  • 本處處長
  • 智財處介紹及業務窗口
  • 研管會介紹
  • © 2022 中央研究院智財技轉處 版權所有 通過AA無障礙網頁檢測