日本語の読み推定のための規則性抽出と機械学習に基づく規則の実験的検証
アナウンス
- 担当者(講座名):松本裕治,菅野亜紀,浅原正幸(自然言語処理学講座)
- 概要:例えば「貿易会社」の「会社」は(かいしゃ)ではなく(がいしゃ)「目覚し時計」の「時計」は(どけい)と読むように,同じ漢字でも 読みが違う場合がある.本実習では,このような読みのゆれについて,文脈などを検討し規則性を探り,その評価実験を行う.
- 実施日程の概要:第II期(週1回)〜夏期休暇(うち,計1週間)
- 使用する装置, ソフトウェアなど:Perl,Rubyなどの言語でデータ抽出を行う.
- 教科書, 参考書:特になし
- 受け入れ可能人数:3人
- 希望者が受け入れ可能人数を越えた場合の選択基準:課題への興味の強さとプログラミング能力
- その他の特記事項:なし
予定と履歴
- 課題提出締め切り 2004/08/31 までに {matsu,masayu-a} at is.naist.jp 宛にメールで送ること。
- 第5回ミーティング (2004/07/07/wed 11:00-12:00 A707)
- 配布したもの
- 現代言語学入門2「日本語の音声」窪薗晴夫著 pp.107--147
- パワーポイント資料
- 配布したもの
- 第4回ミーティング (2004/07/01 13:30-15:00 A707)
- 配布したもの
- 「プロジェクト実習資料 2004/07/01」
- パワーポイント資料
- 配布していないもの(参考)
- 課題1の想定出力
- Weka のチュートリアル
- Weka のページ
- 配布したもの
- 第3回ミーティング (2004/06/24 15:10-15:55 A707)
- 配布したもの
- 「プロジェクト実習資料 2004/06/24」
- 配布したもの
- 第2回ミーティング (2004/06/17 15:10-16:40 A707)
- 配布したもの
- 「プロジェクト実習資料 2004/06/17」
- Sufary ドキュメント
- 配布していないもの(参考)
- 正規表現
- サンプルプログラム集
- 配布したもの
- 第1回ミーティング (2004/06/10 16:00-17:00 A707)
- 配布したもの
- 「プロジェクト実習資料 2004/06/10」
- 「短単位・長単位データマニュアル」
- 「『日本語話し言葉コーパス』の形態論情報の概要」
- 配布していないもの(参考)
- 「転記テキストの仕様」
- 「短単位・長単位混合データ」
- 「短単位・長単位混合データ」のtarball
- 「長単位データ」
- 「長単位データ」のtarball
- パワーポイント資料
- 配布したもの
課題予定
- 長単位ファイルと短単位ファイルから、「表記」と「読み」を抽出し辞書を作成する
- 文字列検索ツールを使って、高速に辞書引きするモジュールを作成する
- 辞書引きモジュールを使って、複合語-構成語間の関係を抽出するモジュールを作成する
- 複合語-構成語間で「読み」が変化する部分を抽出する
- 適切は素性を考え、機械学習器を用いて自動的に「読み」変化規則を抽出する