NAIST Chinese Dictionary
本ページでは MeCab 用中国語辞書の情報を提示しています。現在のバージョンは mecab-naist-cdic-0.3.0-20100512 です。
辞書の概要
約12万語からなる中国語形態素解析用辞書です。
いわゆる「フリーライセンス」ではありません。利用に際して以下の手続きをお願いします。
問い合わせ
まずは、NAIST産官学連携推進本部「中国語形態素解析用辞書担当者」(ip-3f-at-ip.naist.jp)までご相談下さい。
試用
現在のところ試用の新規契約は中止しております。
本契約
利用形態に合わせてより「実施(ライセンス)契約書案」をお送りいたしますので、NAIST産官学連携推進本部「中国語形態素解析用辞書担当者」(ip-3f-at-ip.naist.jp)までご相談下さい。本契約締結後、辞書公開ページの情報をお送りいたします。
語彙項目に含まれる情報
単語と品詞体系です。発音などの情報は含まれていません。 語彙項目は簡体字(Simplified Chinese -- UTF-8) により構成されます。 品詞体系として Penn Chinese Treebank の品詞体系を少し改変したものを利用しています。品詞体系についてはこちらを参照してください。 どのようにして辞書を作成したか 語彙項目の構成方法(未知語の収集方法)については Goh Chooi-Ling 氏の博士論文の成果を利用したうえで人手でチェックしております。語彙項目のチェックは中国語母語話者によるものです。 さまざまな中国語テキストに対し、上に示した品詞体系を付与し人手で修正したコーパスを用いて、形態素解析モデルの訓練を行っております。
他の中国語形態素解析システム
我々が開発していない他の中国語形態素解析システムとして ICTCLASがあります。研究用途にはそちらのご利用をお勧めします。