中研院臺灣當代華語語料庫
2023-01-03
中研院臺灣當代華語語料庫
![Sinica Logo](/assets/sinica-logo-94384cd3a8f1151e94801b427381a6add096ad1e46c407e737f0630da6a9fb91.png)
摘要
中研院臺灣當代華語語料庫收錄多達7千多萬則臺灣正體華語詞彙(73007511)。取得授權的語料來源為2015至2020年間出版的報章雜誌(總共86267296個字,50486010個詞及238361篇文章)及兒童讀物(總共37162935個字,22297533個詞及112204篇文章)。內容涵蓋了生活、社會、金融、科學、文學、文化、教育以及哲學等多種類型的文章。本語料庫所有文本的內容都依照詞彙斷開並標示詞類標記及實體辨識標記。進一步彙整每個詞彙的詞類標記,以及計算其詞彙頻率(出現次數、百萬詞頻、百萬詞頻取對數),語境變異(出現次數、出現次數取對數、百萬詞頻、百萬詞頻取對數、千詞頻),以及語意變異等三項指標。
技術優勢
1. 2015至2020年間當代臺灣華語文本大數據分析
2. 提供詞彙頻率、語境變異及語義變異等三項指標
3. 依據不同年齡層閱讀文本的類型,可分別建立適合小孩、成人及老年人等閱讀經驗的語料庫
![圖1. 中研院臺灣當代華語語料庫:詞彙頻率、語境變異、語義變異、詞類標示
\](/uploads/shares/24T-1120207/01.png)
圖1. 中研院臺灣當代華語語料庫:詞彙頻率、語境變異、語義變異、詞類標示 \
本院覽號
24T-1120207
公告日期
2023-01-03
智財權狀態
know-how
應用範圍
- 1. 提供中文相關學術研究之實驗材料篩選語料
- 2. 提供發展學童、醫院臨床或長照機關病人及長者中文語言能力測驗題庫的參考語料
- 3. 提供學校教師編制給學童或是華語文第二外語學習者的中文教材參考語料
- 4. 其他中文字詞選取之可能應用
創作人
李佳頴
檔案下載