ENGLISH    |  

利用者からの要求を考慮したテキストデータからの知識抽出

科学研究補助金 特定領域研究(B)「情報洪水時代におけるアクティブマイニングの実現」

計画研究(8) 利用者からの要求を考慮したテキストデータからの知識抽出

研究メンバー

  • 松本 裕治 奈良先端科学技術大学院大学 情報科学研究科
  • 新保 仁 奈良先端科学技術大学院大学 情報科学研究科
  • 山田 寛康 北陸先端科学技術大学院大学 情報科学研究科

研究の背景

インターネットによる情報革命により、過去には考えられないほどの情報が氾濫している。この中で体系化されず未整理の情報の多くが言語による文書(テキスト)データとして存在している。人間がある目的で必要とする情報は、他の情報の中に埋没しており、これを適切な時期に適切な形で取り出すことは容易ではない。言語によって記述された情報の中から、利用者の欲する情報を自由に取り出し、適切な表現で提示することができれば、自分の目的に無関係な情報に煩わせられることなく、情報の有効利用を実現することができる。

研究の目的

本研究の目的は、利用者の要求に応じた情報を膨大なテキストデータから取り出す方法、および、それを支えるための基盤となる自然言語処理技術を開発することである。主な研究項目は次のとおりである。

  1. テキストに存在する重要な(専門)用語の抽出と意味分類:有用な文書を検索するための基本となるのは、文書内に現れる重要な語や表現であるが、これらはすべての目的に共通な訳ではない。利用者の目的や意図にしたがった用語抽出の手法について研究する。利用者の目的や意図は、文章あるいは語の集合によって記述されるのが自然であるので、そのような記述から、利用者にとって重要な用語がどのようなものであるかを自動学習する手法を得ることが、この研究の目的となる。
  2. テキストの言語解析による語彙概念構造の抽出:意味解析を目指した言語解析のためには、語が重要であるかどうかだけではなく、語が表現する概念および概念間の関係を知る必要がある。ここでは、主に動詞についての概念構造、および、名詞概念の意味関係(上位下位関係、同義あるいは類義関係)をテキストにおける単語の使われ方により学習する手法を研究する。動詞および名詞については、典型的な概念記述の分類体系のあらましを事前に行い、個々の語に関する情報は、テキスト中の使用によってクラス分類することによって語彙概念記述を得る手法の開発を目的とする。
  3. 意味内容を考慮したテキスト構造の解析:まとまった内容をもつ文書は、各部が関連をもち、かつ、それぞれの部分が独自の役割を持っている。例えば、随筆のような文章では、起承転結で表現されるような流れや役割分担がある。また、論文のあらましや導入部分には、研究対象となっている分野の背景や前提の記述とともに、研究の目的、手法、結果など論文の趣旨となる事項がかかれており、各部の役割は大きく異なる。このような文書内の各部分の役割を自動判別するための文書構造解析技術の研究を行う。
  4. 利用者の希望あるいは文脈を考慮した適応性のある情報抽出手法:上記の技術を総合的に用い、利用者が要求する情報を大量の文書データの中から抽出する手法について研究を行う。
  5. 学習に基づく言語解析技術:これまで、申請者は、形態素解析、統語的係り受け解析について、学習に基づく解析システムの精度向上に関する研究を行ってきた。同様の考え方利用して、用語あるいは重要表現の抽出や文書構造解析のための学習手法の実現を目指す。

現状における学問的な意義

特定の分野を対象とした情報抽出の研究は米国のMessage Understanding Conferenceにおける共通タスクとして研究されている。また、質問応答を目的とした情報検索として、文書の中の特定部分(パッセージ)を検索することも研究が行われている。しかし、現時点では、いずれもパターンマッチによる単純な手法が中心であり、文書の構造解析や言語解析を本格的に行う研究はなされていない。もちろん、現在の言語処理技術がこれらの要求を満たすほど十分な文書解析ができていないのが主な理由である。しかし、統計的言語処理における種々の解析技術の蓄積や計算機の高性能化の現状を考えると、上記のような基礎的な技術を具体的な目的のために適用することが可能になりつつあり、これからの重要な研究テーマになる。本研究では、最新の言語処理技術を利用して、特定分野のテキストからの知識抽出を行い、利用者の要求に応じた文書検索の実現を目指す。

関連研究成果

  • Tetsuji Nakagawa, Taku Kudo and Yuji Matsumoto, "Revision Learning and its Application to Part-of-Speech Tagging," Proceedings of 40th Annual Meeting of Association for Computational Linguistics (ACL-02), Philadelphia, USA, pp.497-504, July 2002.
  • Masashi Shimbo, Hiroyasu Yamada, Yuji Matsumoto, "Using Syntactic Dependency Information for Classification of Technical Terms," PKAW 2002: The 2002 Pacific Rim Knowledge Acquisition Workshop, pp.131-143, Tokyo, Japan, August 2002.
  • Tetsuji Nakagawa and Yuji Matsumoto, "Detecting Errors in Corpora Using Support Vector Machines," Proceedings of the 19th International Conference on Computational Linguistics (COLING 2002), Taipei, Taiwan, pp.709-715, August 2002.
  • Taku Kudo and Yuji Matsumoto, "Japanese Dependency Analysis using Cascaded Chunking," Proceedings of Sixth Conference on Natural Language Learning (CoNLL-2002), Taipei, Taiwan, pp.63-69, August-September 2002.
  • 工藤拓, 山本薫, 坪井祐太, 松本裕治, "言語情報を利用したテキストマイニング," 情報処理学会研究報告, 自然言語処理研究会, 2002-NL-148, pp.65-72, March 2002.
  • 山田寛康, 新保仁, 松本裕治, "文脈情報を用いた医学用語分類," 情報処理学会研究報告, 知能と複雑系研究会, 2002-ICS-128, pp.23-28, May 2002.
  • 工藤拓, 山本薫, 坪井祐太, 松本裕治, "テキストデータベースからの構文構造のマイニング," 情報処理学会研究報告, 知能と複雑系研究会, 2002-ICS-128, pp.139-144, May 2002.
  • 山田寛康, 松本裕治, "Support Vector Machine を用いた決定性上昇型構文解析" 情報処理学会研究報告, 自然言語処理研究会, 2002-NL-149, pp.57-64, May 2002.
  • 山田寛康, 工藤拓, 松本裕治, "Support Vector Machineを用いた日本語固有表現抽出," 情報処理学会論文誌, Vol.43, No.1, pp.44-53, January 2002.
  • 松本裕治, "自然言語処理におけるシステム混合法の利用," 電子情報通信学会論文誌 D-II, 招待論文, Vol.J85-D-II, No.5, pp.709-716, May 2002.
  • 工藤拓, 松本裕治, "チャンキングの段階適用による日本語係り受け解析," 情報処理学会論文誌, Vol.43, No.6, pp.1834-1842, June 2002.
  • Taku Kudoh and Yuji Matsumoto, "Chunking with Support Vector Machines," Proceedings of the Second Meeting of North American Chapter of Association for Computational Linguistics (NAACL), pp.192-199, Pittsburgh, June 2001.
  • Tetsuji Nakagawa, Taku Kudoh and Yuji Matsumoto, "Unknown Word Guessing and Part-of-Speech Tagging Using Support Vector Machines," Proceedings of the Sixth Natural Language Processing Pacific Rim Symposium (NLPRS2001), Tokyo, pp.325-331, November 2001.
  • 中川哲治,工藤拓,松本裕治, "Support Vector Machineを用いた未知語の品詞推定," 情報処理学会研究報告, 2000-NL-141, pp.77-82, Janurary 2001.
  • 工藤拓,松本裕治, "チャンキングの段階適用による係り受け解析," 情報処理学会研究報告, 2000-NL-142, pp.97-104, March 2001.
  • 山田寛康,工藤拓,松本裕治, "Support Vector Machineを用いた日本語固有表現抽出," 情報処理学会研究報告, 2000-NL-142, pp.121-128, March 2001.
  • 松本裕治, 山田寛康, 新保 仁, "学習に基づく専門用語分類," 人工知能学会, 人工知能基礎論研究会, 知識ベースシステム研究会合同研究会, SIG-FAI/KBS-J-13, pp.79-84, November 2001.
  • 中川哲治, 工藤拓, 松本裕治, "修正学習法による形態素解析," 情報処理学会研究報告, 2001-NL-146, pp.1-8, November 2001.
  • 山田寛康, 松本裕治, "Support Vector Machineの多値分類問題への適用法について," 情報処理学会研究報告, 2001-NL-146, pp.33-38, November 2001.

科学研究補助金 特定領域研究(B) 「情報洪水時代におけるアクティブマイニングの実現」ページへ

松本研究室