ENGLISH    |  

統合DBプロジェクト

ライフサイエンス分野の統合データベース整備事業ホームページ

  • 当研究室が分担する内容
    • 統合データベース開発
    • 共通基盤技術開発の一部(専門用語辞書管理システムと専門用語解析技術の開発)に関わる研究開発
  • 平成19年度〜平成22年度(2007〜2010年度)

研究の目的

ライフサイエンス分野の文献の特徴として、新しい専門用語(蛋白質/遺伝子名、病名等)が日々出現すること、そして、複雑な内部構造を持つ専門用語が多いことが挙げられる。このため、ライフサイエンス分野の文献に対して情報検索や情報抽出等を行うには、新しい専門用語の同定(固有表現抽出)、専門用語シソーラスの拡張、専門用語内部部分文字列の構造解析といった自然言語処理の技術が重要となる。主な研究項目は次のとおりである。

  1. 専門用語辞書システムの開発:複数の専門用語辞書を管理するためのツール.専門用語の様々な情報による検索や表示を行うことができる.
  2. 専門用語抽出ツールの設計と開発:専門用語周辺の係り受け構造や専門用語内部部分文字列の構造を用いるなどして、コーパスにおける出現文脈の類似度(分布類似度)の改良を試みる。その応用としてシソーラス拡張システムの構築等に取り組む。
  3. 専門用語解析技術の開発:専門用語の多くは複合語であり,複雑な内部構造を持っている.専門用語内の単語係り受け解析法を開発する.また,固有表現抽出の精度向上のために並列構造解析法を開発する.これにより,例えばコーパス中で“A and B”という並列構造が同定できれば、並列項目の対称性から“A”と“B”はどちらも固有表現である(またはどちらも固有表現でない)ということがわかる.

関連研究成果

学術論文誌

  • 文法制約と系列アラインメントによる並列構造の解析
    • 原一夫, 新保仁, 松本裕治
    • 人工知能学会論文誌, Vol.25, No.5, pp.560-569, July 2010. PDF
  • バイパス付きアラインメントグラフを用いた日本語並列句検出と範囲同定
    • 大熊秀治, 原一夫, 新保仁, 松本裕治
    • 人工知能学会論文誌, Vol.25, No.1, pp.206-214, January 2010 PDF
  • グラフ構造を持つ条件付確率場によるWikipedia文書中の固有表現分類
    • 渡邉陽太郎,浅原正幸,松本裕治.
    • 人工知能学会論文誌, Vol.23, No.4, pp.245-254, April 2008 PDF
  • Extracting clinical trial design information from MEDLINE abstracts
    • Kazuo Hara and Yuji Matsumoto
    • New Generation Computing, Vol. 25, No. 4, pp.263-275, August 2007
  • アラインメントと機械学習を応用した並列句解析: 医学生物学論文からの情報抽出に向けて
    • 原 一夫, 新保 仁, 松本 裕治
    • 人工知能学会論文誌, Vol.22, No.3, pp.248-255, May 2007 PDF

国際会議

  • Towards automatic biomedical entity annotation by reducing error propagation
  • A graph-based approach for biomedical thesaurus expansion
    • Ikumi Suzuki, Kazuo Hara, Masashi Shimbo, and Yuji Matsumoto
    • In Proceedings of the ACM Third International Workshop on Data and Text Mining in Bioinformatics (DTMBIO), Short Papers, pp.79-82. Hong Kong, November 2009
  • Coordinate structure analysis with global structural constraints and alignment-based local features
    • Kazuo Hara, Masashi Shimbo, Hideharu Okuma, and Yuji Matsumoto
    • In Proceedings of the Joint Conference of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing (ACL-IJCNLP 2009), pp.967-975. Singapore, August 2009
  • Bypassed alignment graph for learning coordination in Japanese sentences
    • Hideharu Okuma, Kazuo Hara, Masashi Shimbo, and Yuji Matsumoto
    • In Proceedings of the Joint Conference of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing (ACL-IJCNLP 2009): Short Papers, pp.5-8. Singapore, August 2009
  • Classifying narrative patient records without any external resources
    • Kazuo Hara
    • In Proceedings of the Second i2b2 Workshop on Challenges in Natural Language Processing for Clinical Data, Washington, D.C., USA, November 2008
  • A pipeline approach for syntactic and semantic dependency parsing
    • Yotaro Watanabe, Masakazu Iwatate, Masayuki Asahara, and Yuji Matsumoto
    • In Proceedings of the 12th Conference on Natural Language Learning (CoNLL-2008), pp.228-232. Manchester, UK, August 2008

国内会議等

  • バイパス付き編集グラフを用いた日本語並列構造解析
    • 大熊秀治, 新保 仁, 原 一夫, 松本裕治
    • 情報処理学会研究報告, 自然言語処理研究会, 2009-NL-190, pp.111-118, March 2009.
  • グラフを用いたバイオ医療専門用語の類義語獲得
    • 鈴木郁美, 原一夫, 新保仁, 松本裕治
    • 情報処理学会研究報告, 情報学基礎自然言語処理合同研究会, 2009-FI-93, 2009-NL-189, pp.65-70, January 2009.
  • 文字係り受けに基づく専門用語の内部構造表現と解析
    • 山田恵美子, 松本裕治
    • 情報処理学会研究報告, 自然言語処理研究会, 2009-NL-191, No.20, May 2009.
  • GENIAコーパスからのネスト並列句同定
    • 原 一夫, 新保 仁, 大熊 秀治, 松本 裕治
    • 情報処理学会研究報告, 自然言語処理研究会, 2008-NL-187, pp.53-58, September 2008.