日本語同義表現辞書編纂補助ツールの作成
アナウンス
- 担当者(講座名):松本裕治,乾健太郎,浅原正幸(自然言語処理学講座)
- 概要: 特定のドメインについての専門用語とその同義表現からなる辞書
を編纂する作業を支援したい.
具体的には次のような機能を持つツールを作成する.
(1)大規模のテキスト集合から専門用語を抽出する.
(2)専門用語にクラスを割り当てる.
(3)抽出された用語から同義表現を発見する.
(4)以上の作業を効率化するGUIを作成する. - 実施日程の概要:第II期(週1回)〜夏期休暇(うち,計1週間)
- 使用する装置, ソフトウェアなど:Perl,Rubyなどでプログラムで用語抽出器を構成する。その他 GUI プログラミング。
- 教科書, 参考書:特になし
- 受け入れ可能人数:3人
- 希望者が受け入れ可能人数を越えた場合の選択基準:課題への興味の強さとプログラミング能力
- その他の特記事項:なし
課題予定
- 用語抽出器の作成
- スコアに基づく用語抽出器の作成。専門用語らしさを表す統計的スコアを用い、 形態素列から高いスコアを持つ文字列をランキングして出力するモジュール(教師なし手法)
- パターンによる用語抽出器の作成。専門用語の前後の局所的なパターンを発見し、 そのパターンを用いて専門用語らしい文字列を出力するモジュール(教師あり手法)
- クラスタリング推定器の作成
- 切り出された用語の前後の単語の分布の近接性から、似た振る舞いをする単語を発見するモジュール (教師なし手法)
- 既存の辞書、シソーラスなどに対して、似た振る舞いをする単語をマッピングするモジュール (半教師あり手法)
- 用語抽出器とクラスタリング推定器の統合GUI環境の構築
- テキストを与えると、上に示したモジュールを呼び出し候補語を可視化するGUIツールの作成。ユーザーが用語抽出もしくはクラスタリングのエラーを修正できるような環境を作成する。
次回ミーティング
- 2005.07.07 15:10-16:40 A707 ゼミ室
参考文献
- 用語抽出器関連
- 東大中川研の専門用語抽出器「言選」:http://gensen.dl.itc.u-tokyo.ac.jp/
- YamCha:http://chasen.org/~taku/software/yamcha/
- 浅原、松本、「日本語固有表現抽出における冗長的な形態素解析の利用」 IPSJ SIGNL-153, pp.49-56
- クラスタリング関連
- C. D. Manning & H. Shuetze, Foundations of Statistical Natural Language Processing, Chapter 14, Clustering pp.495--528
- D. Klein, S. D. Kamvar & C. D. Manning, Fron Instance-level Constraints to Space-Level Constraints Making the Most of Prior Knowledge in Data Clustering, in Proc. of ICML-2002 [pdf:http://www.cs.berkeley.edu/~klein/papers/constrained_clustering-ICML_2002.pdf]