ENGLISH    |  

自然言語処理合同研究会 2007

恒例の, 自然言語処理系研究室による合同研究会を本年度も開催します.

スケジュール(予定)

  • 11/22(木)
    • 招待講演 14:00-14:40 奥村学 先生
    • 各研究室の紹介 14:40-15:40
    • ポスターセッション1 15:50-17:20 (発表8件)
    • 懇親会 17:30-19:30
  • 11/23(金)
    • ポスターセッション2 10:30-12:00(発表10件)
    • ポスターセッション3 13:00-14:30(発表10件)

プログラム(暫定版)

ポスターセッション1 11/22(木)15:45-17:15 (発表8件)

  • (1-1) 料理レシピを対象とした関連検索システム
    • 苅米志帆乃 (筑波大) (demo: online)
    • 毎日の食生活を豊かにするためには,「健康」と「食べる楽しみ」への配慮として,栄養バランスや種類の豊富さを考慮し,献立を決定する必要がある.そこで,様々な料理に関する知識や作り方を調べる必要がある.本研究は,多彩な料理の検索や栄養バランスを考慮した献立の検索を目的とし,レシピを対象とした関連検索システムを構築する.また,システムのデモを行う.
  • (1-2) Word Sequences for Second Language Acquisition
    • Vera Sheinman (東工大)
    • Lexical ontologies rarely provide information about the inner relationships between words within a category, particularly the order relation. We discuss the human perception of order among members of a semantic category, and introduce a novel computational method, Word Sequences, that arranges words by commonly perceived order. The effectiverified in preliminary experimental settings. The method might be applied for ontologies enrichment, recommendation systems, and second language acquisition purposes.
  • (1-3) 物語テキストにおけるキャラクタ関係図自動構築
    • 神代大輔 (東工大)
    • 小説や童話などの物語テキストにおける登場キャラクタの関係図を自動構築するシステムを開発する。その際キャラクタ同士の会話の特徴を用いて、そのキャラクタ間の関係を推定することを目標とする。そのため、まず物語中の発話の話し手と聞き手の同定を行う。周辺文脈を考慮した機械学習の手法によって、話し手同定において73%の正解率を達成した。
  • (1-4) 特定トピックのブログサイト検索: Wikipediaエントリとブログサイトの対応付けに向けて
    • 川場真理子 (筑波大)
    • 本研究ではある特定のトピックについて検索をしたときに,そのトピックについて面白い情報が書かれているブログサイトを探すことを目的とする.手法として,特定トピックを表すキーワードを用いて商用検索エンジンAPIにより上位のブログサイトを収集し,これを,特定トピックを表すキーワードの出現数順にリランキングする方法を用いる.この方法によるランク付けと,商用ブログ検索エンジンによって得られるブログサイトランク付けとの比較結果について報告する.また,この手法を用いて,Wikipediaエントリに対応したトピックのブログサイトを検索するタスクについての検討の現状を報告する.
  • (1-5) 法令文書を論理式に変換する方法の研究 -複数文や参照表現を対象に-
    • 木村祐介 (JAIST)
    • 法令文の論理構造は,要件・効果構造という構造をとることが知られている.しかし,複雑な条文では,号の列挙や参照表現により複数の要件・効果構造が表現されている.そこで本研究では,このような複雑な法令文を論理式に変換するために,文型の変換や文脈処理を行う方法を示す.
  • (1-6) Combining Resources for Open Source Machine Translation
    • Eric Nicholes (NAIST)
    • In this presentation, we present a Japanese→English machine translation system that combines rule-based and statistical translation. Our system is unique in that all of its components are freely available as open source software. We describe the development of the rule-based translation engine including transfer rule acquisition from an open bilingual dictionary. We also show how translations from both translation engines are combined through a simple ranking mechanism and compare their outputs.
  • (1-7) 検索ログからの半教師あり意味知識獲得の改善
    • 小町 守 (NAIST)
    • Web 検索ログから意味知識を獲得するブートストラップ手法を提案する.我々の手法は2項関係抽出アルゴリズム Espresso に基づくもので,意味カテゴリ獲得タスクのために検索ログを適切に扱うことができるような修正を加えている.日本語検索ログデータを用いた実験を行い,我々の手法と他に2つの半教師あり語彙知識獲得システムを比較して,我々の手法が既存手法より高い精度を持ち,高速に動作し,意味カテゴリの特徴づけにとってより意味のある文脈パターンを集めることができることを示した.
  • (1-8) 効率的な類似検索のためのピボット学習法
    • 木村 学 (NAIST)
    • 与えられたクエリから類似したオブジェクトを同定する類似検索は,広い分野で利用されている.本研究は,検索をより効率化するため,クエリとデータ群の各オブジェクトとの間で行われる類似計算の回数を減らすことに焦点を当て,特にピボットの集合に注目する.ピボットの集合をデータ群から選択する従来手法とは異なり,データ群が存在しうる距離空間から機械学習アプローチにより学習する新たな手法を提案する.実験により,提案手法が従来手法と比べて,類似計算の平均的な実行回数を大幅に減らすことを示す.

ポスターセッション2 11/23(金)10:30-12:00(発表10件)

  • (2-1) 時事問題に対する賛否両意見の自動収集手法
    • 井上 結衣 (筑波大) (demo: offline)
    • 時事問題に対する自分の態度を決定したり,購入する商品を選択するためには,時事問題や商品に関する情報を収集し,さらに集約や分析を行って合理的な立場を決定する「意思決定」が必要です.本研究では,意思決定の支援を目的として,Web上にある時事問題に対する意見を「賛成」と「反対」に分けて収集するための手法を提案します.また,意思決定システム「OpinionReader」のデモを行います.
  • (2-2) 空間語選択における幾何的要因の影響
    • 小林竜己 (東工大)
    • 本研究では,日本語の「左」,「近い」,「遠い」を対象に,三次元コンピュータグラフィックスによる物体画像と物体の空間関係の説明文を用いた心理学実験を実施し,物体間距離,物体のサイズ,ディストラクタの位置と有無といった幾何的要因が,適切 な空間語の選択の際にどのような影響を与えるかを検証した.その結果,ある幾何的状況における各空間語の適切さの判断は,それぞれ異なる幾何的要因の影響を受けている可能性があること,さらには,言語表現に含まれない要因を考慮しなければならない場合があることが判明した.
  • (2-3) パラレルテキストの自動的生成に基づく越日統計的機械翻訳
    • Le Tuan Anh (豊橋技科大)
    • 本論文では、資源言語が少ない言語に対して、言語間の特徴を用いて、パラレルコーパスを生成し、統計的機械翻訳に利用する手法を提案する。本論文では、ベトナム語から日本語への翻訳を対象とし、英語を中間言語として利用する。作成したコーパスを学習データとして、フレーズ・ベース統計的機械翻訳を構築し、越日翻訳システムを実現した。
  • (2-4) ドメイン依存性を考慮した文書の感情極性判定
    • 齋木 陽介 (東工大)
    • 感情極性判定とは, ある対象について述べられた文書がその対象に対して肯定的なのか否定的なのかを判定する問題である. この問題では文書が書かれたドメインが異なるとき, 同じ表現が出現してもその極性が異なる場合がある.例えば「この映画は内容が薄い」と「この携帯電話は本体が薄い」では同じ「薄い」という表現が出現しているのに極性は違う. 本研究ではこのようなドメイン依存性を考慮した感情極性判定のモデルを提案する.
  • (2-5) キーワードのバースト特性を利用したスパムブログデータセットの作成と分析
    • 佐藤有記 (筑波大)
    • 本研究では,ブログにおいて検索頻度の高いキーワードを主として狙ったスパムブログの問題についての分析を行うことを主目的として,スパムブログデータセットを作成し,スパムブログの分析を進めている.スパムブログデータセットの作成においては,まず,キーワードによって検索されるブログサイトの生起数の推移を観測することによってバースト現象を確認し,バースト日において特に一日の投稿記事数の多いブログサイトを中心にブログサイトの収集を行う.次に,これらのブログサイトに対してスパム・非スパムの識別作業を行い,スパムブログデータセットを作成する.また,データセットを利用して,主としてリンク構造に着目したスパムブログ・非スパムブログ自動識別規則を作成し,この性能を評価する.
  • (2-6) ボランティア翻訳による関連既訳文書を利用した翻訳知識抽出システムの構築
    • 浅利俊介 (岡山大)
    • ボランティア翻訳による関連既訳文書を利用した翻訳知識抽出システムの構築について発表する。Web上にはボランティア翻訳者によって英日などの翻訳された文書が存在する。このような文書に対し、対訳情報を利用して専門用語の抽出や定型句の抽出を試みる。この目的のためにWeb上の既訳文書間で対応している段落をいかに取り出すかという段落アラインメント(英日)について行っている研究を発表する。
  • (2-7) Gloss-Based Semantic Similarity Metrics for Predominant Sense Acquisition
    • 飯田龍 (NAIST)
    • In recent years there have been various approaches aimed at automatic acquisition of predominant senses of words. This information can be exploited as a powerful backoff strategy for word sense disambiguation given the zipfian distribution of word senses. Approaches which do not require manually sense-tagged data have been proposed for English exploiting lexical resources available, notably WordNet. In these approaches distributional similarity is coupled with a semantic similarity measure which ties the distributionally related words to the sense inventory. The semantic similarity measures that have been used have all taken advantage of the hierarchical information in WordNet. We investigate the applicability to Japanese and demonstrate the feasibility of a measure which uses only information in the dictionary definitions, in contrast with previous work on English which uses hierarchical information in addition to dictionary definitions. We extend the definition based semantic similarity measure with distributional similarity applied to the words in different definitions. This increases the recall of our method and in some cases, precision as well.
  • (2-8) Constructing a Temporal Relation Tagged Corpus of Chinese based on Dependency Structure
    • 鄭 育昌 (NAIST)
    • This paper describes an annotation guideline for a temporal relation tagged corpus. Our goal is to construct a machine learnable model which automatically analyzes temporal events and relations between events. In this paper, we report our initial attempt in preparing a small-sized tagged corpus used as a training data. Since analyzing all combinations of events is inefficient, we examine use of dependency structure to efficiently recognize meaningful temporal relations. We find that the dependency structure appears useful for reducing manual efforts in constructing tagged corpus with temporal relations.
  • (2-9) 事態オントロジー構築のための知識獲得
    • 阿部修也 (NAIST)
    • 行為-効果,行為-目的,上位-下位のような事態間関係を大規模コーパスから自動的に獲得する手法について論じる.例えば、「〜を目指して〜する」という事態表現間の共起パターンと「<合格>を目指して<勉強>する」という事例から「勉強する」「合格する」という行為-効果の関係が獲得できる.
  • (2-10) 日本語学習者の作文を集めた学習者コーパスと機械学習による正誤判定
    • 大山浩美 (NAIST)
    • 言語育における習得言語の研究、分析は、データ量の不足とデータ分析の技術の煩雑さからこれまであまり研究がなされてこなかった。近年コンピュータ技術の発達とデータ蓄積技術の向上などから次第にデータが増えつつある。しかし、母語話者の言語データを蓄積したコーパスに比べ、第二言語学習者の言語データに基づくコーパスはまだまだ不十分な状態にある。誤用コーパス作りには、誤用データの収集、誤用分類、よりよい誤用文検索ツールの開発など色々な要素が含まれる。今回、収集されたデータを誤用分類し、入力を行いデータ構築を行った。また、将来ウェブから学習者の作文を自動的に収集することも考慮し、機械学習による正誤文自動判定を行った。まず、新聞の記事においてSVM(Support Vector Machine)により正しい格助詞の使用を判定する実験を行った。現在は、日本人が書いた文と日本語学習者が書いた文においてSVMにより自動判定を行う実験をしている。今後は、この精度を高めていくつもりである。

ポスターセッション3 11/23(金)13:00-14:30(発表10件)

  • (3-1) Effects of Related Term Extraction in Transliteration into Chinese
    • 黄 海湘 (筑波大)
    • 外国語を翻字するときに,日本語や韓国語では表音文字を用いる.それに対して,中国語では漢字を用いて翻字する.しかし,漢字は表意文字であるため,発音が同じでも漢字によって意味や印象が異なる.そこで,中国への翻字では適切な漢字を選択する必要がある.本研究は,翻字対象の関連語をWorld Wide Webから自動的に抽出し,翻字対象を表す印象キーワードとして利用する翻字手法を提案する.
  • (3-2) アノテーションツールSLAT
    • 野口正樹 (東工大)
    • SLATはブラウザベースのアノテーションツールである。SLATではアノテーション作業を文章に対するセグメントとリンクの付与という基本的な操作に抽象化し、様々なアノテーションに対応している。本発表では、いくつかのアノテーションタスクを例に、SLATを用いたアノテーションのデモを行う。
  • (3-3) 翻訳モデルに基づく講演音声ドキュメントのアドホック検索
    • 横田悠右 (豊橋技科大)
    • 近年、音声認識技術の向上により話し言葉による音声を文書として利用することが可能になってきた。本研究では音声認識により文書化された講演音声のアドホック検索を行う。そこで問題となるのが、音声認識誤りである。この問題に対し自動書き起しと人手書き起しの間の差異を「翻訳」により埋め合せする音声ドキュメントの推定手法を検討した。
  • (3-4) blog分類のための半教師有り学習
    • 池田大介 (東工大)
    • blog著者の属性推定など教師有り学習を用いblogを分類する研究がなされている. ラベルの無いblogであれば用意に収集が可能であるが, 正解ラベル付きのblogは一般に高価である. 本研究では半教師有り学習によるblog分類手法を提案する. blog中の各エントリはスタイルや内容が共通している. 本研究ではこれに着目し, 各エントリがどのblogに属していたか, という問題を解くことにより, blogのスタイルや内容をモデル化する. この情報を利用することで, 目的の分類問題の精度を向上させることができる.
  • (3-5) テキスト要約の自動評価における従来手法の問題点とその解決法
    • 平原一帆 (広島市立大)
    • 近年のテキスト要約研究は、テキスト内の重要箇所を抽出するものから、テキストからアブストラクトを自動生成するものへとその主流が移行しつつある。これに伴って生成されたアブストラクトを自動評価する手法もまた数多く提案されてきたが、著者らの実験によれば、単なる重要箇所を抽出したものではなく、独自の表現を含み、より人の手によって書かれたものに近いアブストラクトに対しては、 抜粋によって得られる評価ほど十分な精度が得られないことが明らかになった。本研究ではアブストラクトの自動評価における従来手法の問題点とその解決手法を提案する。
  • (3-6) 形態素の特性を導入したパターンベースの専門用語抽出モデル
    • 稲田裕士 (岡山大)
    • 本研究では用語抽出精度の向上のため形態素の特性・構造・頻度から用語らしさに関する考察を行っている.まず参照関係を表す「本」など用語を構成する形態素として不切なものを洗い出しシステムの出力精度が向上することを示す.次に用語内部の構造(バリエーション関係を含む)を考慮した統計的な評価方法について考察を行う.
  • (3-7) 料理動作のアニメーション生成のための材料辞書の自動構築
    • 竹島正泰 (JAIST)
    • 初心者の料理レシピの理解を助けるためには,レシピ文の料理動作を再現するアニメーションを生成することが有効である.この際,種類,形状といった材料に関する情報を記載した材料辞書が必要となる.本研究では大量のレシピ文から自動的に材料辞書を構築する手法を提案する.まず,材料となる名詞のリストをレシピコーパスから獲得する.次に,各材料の種類,形状,構成要素(皮や種を持つか)といった素性を自動的に推定する.
  • (3-8) Classifying literal expressions versus multiword expressions
    • Campbell Hore (NAIST)
    • Multiword expressions are a common type of lexical item in English. Some multiword expressions are ambiguous in that the same word sequence is sometimes a multiword expression, and sometimes a regular, literal expression depending on the context. Distinguishing these two different usages may be useful in improving the accuracy of language processing. We present a method for distinguishing literal from multiword expressions which uses support vector machines. On testing, the method produces precision and recall of over 90%, giving an F-measure greater than 0.9.
  • (3-9) 日本語読解支援のための語義ごとの用例抽出 NAIST Language Tutor
    • 水野淳太 (NAIST)
    • 大規模かつ種々の言語データが利用可能になり、言語研究に用いることが容易になってきた。大規模なコーパスは、言語研究に限らず、言語学習のための有用な資源として用いることができる。日本語学習者のための学習支援システムにはリーディングチュウ太や、Rikai.comなどがある。我々は言語教育のためのコーパスの有効利用として、語義ごとの例文の提示、頻出用法の検索、類義語の用法の差異などを提示することを考えている。この研究会では、入力された文章中の単語における語義を提示し、さらにその例文を提示するシステムの提案とデモを行う。
  • (3-10) HTMLの木構造を用いた条件付確率場によるWikipeida文書中の固有表現分類
    • 渡邉 陽太郎 (NAIST)
    • Wikipedia 内に出現する固有表現を獲得し,精度よく分類する手法を提案する.Wikipediaの記事に出現するアンカーテキストの単語および句は,リンク先の記事に語釈が記述されている.このWikipedia の特性を用いて,我々は,固有表現の分類問題を,固有表現を表すアンカーテキストに対するラベル付与問題として定式化する.まず,アンカーテキストをノードとして定義されるグラフを構成する.次に,グラフにHTML の構造を取り入れるため,HTML のDOM 構造に基づく3種類のエッジを導入する.このようにして構成したグラフのノードに対するラベル付与を教師あり学習器であるConditional Random Fieldsを用いて行う.実施した評価実験において,提案手法が2つ組に対するSupport Vector Machines の順次適用による手法と比較して高い精度で固有表現の分類ができたことを報告する.

交通案内

宿泊施設案内