移至主內容
https://s4.itho.me/sites/default/files/ithome_logo_0.png
- [url=https://www.ithome.com.tw/news][/url]
- [url=https://www.ithome.com.tw/tech][/url]
- [url=https://www.ithome.com.tw/feature][/url]
- [url=https://www.ithome.com.tw/big-data][/url]
- [url=https://www.ithome.com.tw/blockchain][/url]
- [url=https://www.ithome.com.tw/cloud][/url]
- [url=https://www.ithome.com.tw/devops][/url]
- [url=https://www.ithome.com.tw/tags/gdpr][/url]
- [url=https://www.ithome.com.tw/security][/url]
- [url=https://www.ithome.com.tw/seminar][/url]
- [url=https://intel.ithome.com.tw/][/url]
- [url=https://www.ithome.com.tw/search][/url]
新聞
千呼萬喚十多年!中研院終於開源釋出國產自動化中文斷詞工具
中研院近日正式開源釋出了自行研發多年的中文斷詞程式,提供給在臺灣從事中文自然語言領域研究的學術圈或開發者來使用,目前已放上GitHub平臺。
按讚加入iThome粉絲團
文/余至浩|2019-09-04發表
https://s4.itho.me/sites/default/files/styles/picture_size_large/public/field/image/snap10.jpg?itok=psJzS-AJ
中研院近日正式開源釋出了自行研發多年的自動化中文斷詞程式,並已放上GitHub。
https://itadstatic.ithome.com.tw/B3/1567396708_5d6c93646af07.jpg
圖片來源:
GitHub
從事中文自然語言處理(NLP)研究的中研院CKIP Lab中文詞知識庫小組,近日正式開源釋出了自行研發多年的一套中文斷詞程式,提供給在臺灣從事中文自然語言領域研究的學術圈或開發者來使用,這也意謂著,臺灣終於有了一套國產的自動化中文斷詞工具可以拿來用,而且完全開源,目前已放上GitHub平臺上,開放給大家試用。
中文NLP研究常用到的自動化中文斷詞工具,實際上,中研院CKIP Lab中文詞知識庫小組自己也有一套國產品,但以前沒有開源,僅提供安裝執行檔,並未提供原始碼,因此,過去使用上一直不如中國開源的中文斷詞工具Jieba(結巴)好用。
不過,這次中研院決定將自己的中文斷詞工具開源釋出,並放上程式代管平臺GitHub上,對於臺灣中文NLP研究者或開發者來說,無疑是一大福音。現在使用者已經可以透過該平臺來安裝使用該工具,並可以依據自己需求,來修改原始碼,增加自己想要的新功能或特色。
根據該工具的文件說明,這套CkipTagger中文處理工具,不只提供繁體中文斷詞的功能,也加入詞性標注和18類專有名詞的實體辨識(Named entity recognition)等功能,甚至當以多達5萬句的ASBC 4.0漢語語料庫測試集,來進行中文斷詞測試時,CkipTagger表現遠高於中國的結巴,中研院在中文斷詞準確度可達到97.49%,相較之下,中國的結巴只有90.51%。
新版本也提供幾大特色,包括了加強斷詞表現、可以不自動刪/改字,並且能夠支援不限長度的句子,另外,新版也加入使用者自訂功能,提供參考/強制 詞典的自訂功能。
不只開源中文斷詞程式,我們今年初採訪該詞庫小組計畫負責人馬偉雲時,他也提到,接下來,將用4年的時間,將中文維基百科上的百萬詞彙,自動建立其知識圖譜,來打造成為一個具有百萬中文詞庫的知識庫。他更計畫以現有9萬詞彙所建立的知識圖譜架構,發展相關的自然語言處理工具,可以自動建立其知識圖譜。
https://d3jcp1umdd59vg.cloudfront.net/sites/default/files/fb_300x114_s3.gif
[url=https://www.ithome.com.tw/news/132838#][/url][url=https://www.ithome.com.tw/news/132838#][/url][url=https://www.ithome.com.tw/news/132838#][/url]
- 【企業雲儲存策略高峰會】聯合揭示雲上儲存應變之道
- 效能、管理、安全、穩定 ,IT管理四大考量,如何一次到位?
- AWS 與 NetApp 兩大領袖出擊 9/10 共同傳授企業雲儲存新策略
- Microsoft 365造就安全無虞的數位轉型
- 打造資安斜槓專長,加碼職場競爭力
Advertisement
更多 iThome相關內容
- 又一家證券業搶進Chatbot理財,兆豐證推出一站式理財諮詢Line機器人
- 台灣人工智慧專門學校明年一月開課,找來第一線研究者當老師
- 自然語言理解技術大進展!免斷詞,Google語意框架剖析器SLING能自動找出語句架構
- 杜奕瑾:AI的靈魂就是創造新的價值鏈,從資料、體驗到算法都得創新
- 【尋找在地AI技術力】臺灣的中文語音引擎在哪裡?(下)
- AI趨勢周報第77期:成大將開設跨系所AI醫療課程,為全臺首間AI高齡醫院鋪路
https://itadstatic.ithome.com.tw/B2/1567414381_5d6cd86d962b5.gif
https://d3jcp1umdd59vg.cloudfront.net/sites/default/files/fb_300x114_s3.gif
熱門新聞
https://s4.itho.me/sites/default/files/styles/square_thumbnail/public/field/image/0903-kb4512941-problem.png?itok=WCGL2DOz
微軟Windows 10 1903更新導致CPU使用率飆高
2019-09-03
https://s4.itho.me/sites/default/files/styles/square_thumbnail/public/field/image/zhu_tu_wei_fu_bu_gong_bu_tai_wan_yi_liao_yuan_suo_22jia_yu_hai_0902.jpg?itok=YH5Z6NaU
衛福部晚間公布臺灣醫療院所受勒索軟體攻擊現況,已有22家遇害
2019-09-02
https://s4.itho.me/sites/default/files/styles/square_thumbnail/public/field/image/zhu_tu_wei_fu_bu_tu_pian_lai_yuan_ithome.jpg?itok=NkWMSmir
兩家衛福部所屬醫院遭勒索軟體襲擊,確認臺灣已有10多間醫院遇害
2019-08-31
https://s4.itho.me/sites/default/files/styles/square_thumbnail/public/field/image/zhu_tu_bu_meng_wang_ci_die_zhen_lie_gu_zhang__0.jpg?itok=WD0d_Bz4
虛擬主機供應商捕夢網驚傳磁碟陣列故障,造成用戶網站服務中斷
2019-09-04
https://s4.itho.me/sites/default/files/styles/square_thumbnail/public/field/image/tu_1yi_zhi_ssl_vpnlou_dong_zao_hai_ke_suo_ding_tu_pian_lai_yuan_bad_packet.jpg?itok=BIfQwIwK
企業修補進度慢!近期臺灣資安業者揭露的SSL VPN漏洞,傳出已遭駭客鎖定,全球近1.5萬個Pulse Secure VPN端點曝險
2019-09-03
https://s4.itho.me/sites/default/files/styles/square_thumbnail/public/field/image/0902-google_ios_exploit_chains.png?itok=-s4-LCy7
間諜程式藏網站大規模侵入iPhone至少2年,疑意在監控維吾爾人
2019-09-02
https://s4.itho.me/sites/default/files/styles/square_thumbnail/public/field/image/snap10.jpg?itok=Q72marqd
千呼萬喚十多年!中研院終於開源釋出國產自動化中文斷詞工具
2019-09-04
https://s4.itho.me/sites/default/files/styles/square_thumbnail/public/field/image/0902-bitcoin.jpg?itok=JX55KZuV
挖礦軟體XMRig感染目標擴及x86系統
2019-09-02
https://s4.itho.me/sites/default/files/styles/square_thumbnail/public/field/image/0902-wordpresswai_gua_lou_dong_.png?itok=MYBLAcLv
WordPress 10多個外掛遭駭,用以建立網站非法帳號
2019-09-02
https://s4.itho.me/sites/default/files/styles/square_thumbnail/public/field/image/fireshot_capture_552_-_now_in_beta_managed_service_for_microsoft_active_directory_ad_-_go_-_cloud.google.com_.jpg?itok=4OVMoMZN
Google開始公開測試微軟Active Directory託管服務
2019-09-02
專題報導
https://s4.itho.me/sites/default/files/styles/picture_size_small/public/935-feng_mian_gu_shi_-1_open-960×420.jpg?itok=0IZvzMeb64核處理器來了
https://s4.itho.me/sites/default/files/styles/picture_size_small/public/934-35-feng_mian_gu_shi_-1_open-960x420_gong_zuo_qu_yu_1.jpg?itok=LLjlCbqb人臉考勤門禁應用在臺落地
https://s4.itho.me/sites/default/files/styles/picture_size_small/public/933-feng_mian_gu_shi_-1_open-960×420.jpg?itok=RbSN3xhk純網銀三國時代開戰!
https://s4.itho.me/sites/default/files/styles/picture_size_small/public/932-feng_mian_gu_shi_-1_open-960×420.jpg?itok=5LsHQKjJ打造國家級資安情報力
https://s4.itho.me/sites/default/files/styles/picture_size_small/public/931-feng_mian_gu_shi_-1_open-960×420.jpg?itok=W6c7BR1J紡織短鏈變革的關鍵
更多專題報導
https://itadstatic.ithome.com.tw/B1/1567508105_5d6e468933aac.gif
https://itadstatic.ithome.com.tw/B6/1566361218_5d5cc68203a21.gif
- 電週文化事業版權所有、轉載必究 | Copyright © iThome
- 刊登廣告
- 訂閱週刊
- 授權服務
- 服務信箱
- 隱私權聲明與會員使用條款
- 關於iThome
- RSS
- 徵才
暂无评论内容