ENGLISH    |  

自然言語データに関する情報

概要

情報処理学会「自然言語資源の共有化研究グループ」(委員:松本裕治,徳永健伸,田中裕一,佐野洋)の調査報告 自然言語資源の一覧を随時整備しています.
下記以外の情報をお持ちの方は,どのような情報でもお知らせいただければ幸いです.
(連絡先: matsu@is.naist.jp)

研究利用可能な新聞記事CD-ROM

研究利用可能な対訳文CD-ROM

関連資料

国内の言語資源

  • 日本語複単語表現レキシコン(JMWEL)
    • 日本語処理や日本語習得を難しくしている慣用句的、あるいは決まり文句的な日本語複単語表現(MWE)を網羅的に整理した計145,000見出しのレキシコン。
    • 不特定多数の新聞記事、雑誌記事、小説、解説文、テレビ、ラジオ放送文などから人手で収集・整理されている。
    • 広義のモダリティ表現(助動詞、終助詞性表現)、関係表現(格助詞、副助詞、接続助詞性表現)、慣用句、名詞性表現、動詞性表現、形容詞性表現、連用修飾表現、連体修飾表現、談話指標表現、格言・諺・成句・典型的決まり文句表現、オノマトペ表現などに分けた部分辞書からなる。
    • ひらがな見出し、分かち書き情報、漢字・カタカナ異表記情報、構文機能情報、構文構造情報、内部修飾句情報、共起コンテクスト情報、変化形情報、呼応表現情報、意味タグ(一部)などが記載されている。
    • 日本語処理研究工房・ことばの森(http://jefi.info)からリリース。
  • 分類語彙表−増補改訂版−
    • 延べ約9万6千語の日本語の単語を意味的に分類したもの.国立国語研究所により作成された.
    • 報告書版(pdfファイルの入ったCD-ROM付き 4,700円+税)は,大日本図書より販売されている.
    • 大日本図書株式会社
    • 〒115-8620 東京都中央区銀座1-9-10
    • Tel:(03)3561-8679 Fax:(03)3561-3065
    • データベース版(有償)の利用・申し込みについては下記Webページを参照のこと.
    • http://www.kokken.go.jp/katsudo/kanko/data/index.html
    • 独立行政法人 国立国語研究所
    • 〒115-8620 東京都北区西が丘3-9-14
    • Tel:(03)3900-3111(代表)
  • 中学校・高校教科書の語彙調査
    • 中学校・高校教科書の語彙調査の結果のデータ.国立国語研究所により作成された.
    • (教科書は,S49年,または S55年に発行されたものを使用)
    • 報告書版は,大日本図書より販売されている.
    • 「中学校教科書の語彙調査 I,II」 各5,000円+税
    • 「高校・中学校教科書の語彙調査 分析編」 5,000円+税
    • 大日本図書株式会社
    • 〒115-8620 東京都中央区銀座1-9-10
    • Tel:(03)3561-8679 Fax:(03)3561-3065
    • 3.5インチフロッピー版は,大日本図書より販売されていたが,品切れのため,
    • 「テレビ放送の語彙調査 CD-ROM版(2001年発行)」に再録された.
  • 現代雑誌九十種の用語用字全語彙・表記 FD版
    • 1956年の雑誌九十種の用語用字について国立国語研究所が調査した 結果の一部を,FDに収録したもの. 国立国語研究所により作成された.
    • フロッピーディスクが発売されている.価格は,4,000円+税.
    • 購入申し込み先: 三省堂 〒101 東京都千代田区三崎町2-22-14 Tel:(03)3230-9412
  • 国定読本総覧 CD-ROM版
    • 明治37年4月から昭和24年3月までの間に使用された文部省著作の 小学校用国語教科書六種について,用例KWIC,語彙表,国定読本本 文,用例データベース検索プログラムを載せたもの. 国立国語研究所により作成された.
    • CD-ROM 版の価格は,90,000円+税.
    • 購入申し込み先: 三省堂 〒101 東京都千代田区三崎町2-22-14 Tel:(03)3230-9412
  • IPAL辞書 (動詞,形容詞,名詞)
    • 日本語の基本語(動詞861語,形容詞136語,名詞1081語) の詳細な文法情報を掲載した電子化辞書. Web のページからダウンロードできる ftp 版(無償)と, Windows95 で動作する簡単なブラウザ付きの CD-ROM 版(有償) とがある.
    • IPAL ホームページ
    • CD-ROM版は、情報処理振興事業協会技術センター(IPA)管理室宛に 申し込むことによって入手可能.詳細な解説書および印刷された 辞書も販売されている.
    • 購入申し込み先: 情報処理振興事業協会 技術センター 管理室 TEL 03(5978)7507 FAX 03(5978)7517 〒113-6591 東京都文京区本駒込二丁目28番8号 文京グリーンコートセンターオフィス16階 (購入については、電子メールでの受付はしていない)
    • 内容に関しての問合先: e-mail: ipal-info@ipa.go.jp
  • IPAコーパス
    • 情報処理振興事業協会が公開している研究用コーパス
    • 対象テキストは,(1)公開済みのIPAL辞書に収められ ている文例集約15000文.(2)『日本語表現文型 中級』 (筑波大学日本語教育研究会,凡人社,1983)の中に収め られている、「文型・文法」欄の例文約1600文.日本の大 学に留学する一般外国人留学生を対象とした中級程度の日 本語教材.(3)岩波新書13冊および岩波ジュニア新書7冊の 約41000文(ただし,著作権の問題が解決していないので公 開は1冊分(長尾真著「人工知能と人間」)の約2500文のみ).
    • (2)と(3)の各文は,単語分割し,出現形,読 み,終止形,品詞の情報を付与してある.一部には係り受 け関係も付与されている.
    • Web のページから無償でダウンロードできる. IPAL ホームページ
    • その他、上記ページから,「文型データ,統合辞書試作版」 「文型リスト」に関する電子化データのダウンロードも可能.
    • 内容に関しての問合先: e-mail: ipal-info@ipa.go.jp
  • RWCテキストデータベース第2版(CD-ROM)
    • 新情報処理開発機構(RWCP)が公開している形態素解析済み 日本語データ
    • 通商白書、日本電子工業振興協会報告書の形態素解析データ を収録.これらは人手による修正が行なわれている. また、毎日新聞 (91年〜95年)の全記事を機械的に形態素解析したデータ、 94年度版の中の3000記事について人手修正した差分データを収録。 毎日新聞の解析済みデータを得るには CD-毎日新聞(データ集)が必要.さらに、岩波国語辞典タグ付き/形態素解析データ(人手修正済。第5 版)も含む。
    • 手数料2000円でCD-ROMを入手可
    • 申し込み先:(株)メディアドライブ Email: txrwcdb-req@mediadrive.co.jp http://www.rwcp.or.jp/wswg/rwcdb/text/
  • ATR対話データベース
    • 国際会議,旅行に関する電話およびキーボード会話.形態素総数約80 万の解析済みコーパス.日英対訳.
    • 全4セット(各50,000円)
    • (株)国際電気通信基礎技術研究所 企画部 開発室 〒619-02 京都府相楽郡精華町光台2-2 Tel:(0774)95-1192 Email: deliv@ctr.atr.co.jp
  • 勉誠データベース
    • 古文,和歌集,漢文などのフロッピーデータ.平成6年9月現在で約50種 類のテキストが登録されている.
    • フロッピー1枚当たり約3〜4,000円程度.複数者利用の場合の価格はその4倍.
    • 勉誠データセンター 〒160 東京都新宿区西新宿4-41-7 クレベール西新宿104 Tel:(03)5351-3141 Fax:(03)5351-3941
  • フロッピー版 古典対照語い表
    • 徒然草,方丈記など14の古典,和歌集に現れた自立語の使用度数を記し た統計表のフロッピー版.項目数約23,000.MS-DOSで動く検索プログ ラム等も含まれている.6,695円.
    • 笠間書院 〒101 東京都千代田区猿楽町2-2-5 Tel:(03)3295-1331(代)
  • データノベルズ
    • 文学作品の電子ブック(プロテクトフリーのフロッピー).
    • 坊ちゃん(1,800円),学問のすすめ(3,600円),森鴎外全集(13,000円), 芥川龍之介全集(18,000円)などのフルテキストデータ.
    • 今後,夏目漱石,宮沢賢治などの全集を出版予定.
    • コンピュータ出版 〒154 東京都世田谷区駒沢1-4-6 フリューリング駒沢203 Tel:(03)5486-9481 Fax:(03)5486-4138
  • 青空文庫
    • 無料公開のインターネット図書館。著作権が切れた文学作品、著 作権者が公開に同意した作品をテキスト形式で公開している。
    • 芥川龍之介、有島武郎など多数。
    • 問い合わせ先: 電子メール:aozora@voyager.co.jp ホームページ:http://www.aozora.gr.jp/
  • 判例マスター
    • 日本の裁判所の判例文と検索プログラムを格納したCD-ROM.昭和22年か らの最高裁と全国高裁,地裁の判例の判示事項(88,612件)と最高裁の判決文の 全文(6,499件)が格納されている.(件数は94年前期版)
    • 定価267,800円(税込).半年に一度データが更新される.更新は半年 単位で1回当たりの更新料は40,000円.
    • 新日本法規出版株式会社 統括本部 〒460 名古屋市中区栄1-23-20 Tel:(052)211-1525(代) Fax:(052)211-1522
  • 特許公報類CD-ROM
    • 特許の公開公報と公告公報のCD-ROM.公開公報は年間約100枚(1枚当り 約5,000件収納),公告公報は年間約50枚(1枚当り約2,800件収納)発行.CD-ROM 公開公報は平成5年より,CD-ROM公告公報は平成6年のものが発行されている. また,同じデータを,化学,機械,物理,電気の4分野の分けた分野別 公開CD-ROMも発行している(それぞれ年間29枚).
    • 公開公報1枚あたり20,600円.公告公報1枚あたり13,500円.分野 別1枚あたり35,000円.いずれも年間契約に限る.
    • (財)日本特許情報機構 〒100 東京都千代田区霞ヶ関3-4-2 Tel:(03)3503-3900 Fax:(03)3580-3501
  • EDR辞書,EDRコーパス
    • 日英各20万語の単語辞書.共起辞書.概念辞書.解析済みコーパス(品 詞および構文解析済み)
    • (株)日本電子化辞書研究所 〒101 東京都千代田区神田佐久間河岸78-1 第2阿倍ビル2階 Tel: (03)3851-5521(代表), Fax: (03)3851-5840 Email: thoth@edr.co.jp URL: http://www.jsa.co.jp/EDR/J_index.html?
  • ICOT形態素辞書
    • ICOTフリーソフトウェアの一部.約12万語の表層,読み,および品詞情報.
    • (財)新世代コンピュータ技術開発機構 ftp://ftp.icot.or.jp
  • 講談社和英辞典
    • 電総研によって電子化された和英辞典.対訳例文約38,000文を含む.
    • 研究目的に限る.使用のための誓約書を電総研と交わす必要がある.
    • 連絡先: 橋田 浩一 〒305-8568 茨城県つくば市梅園1-1-4 電子技術総合研究所 情報科学部 Tel: (0298)61-5414 Fax: (0298)61-5084 Email: hasida@etl.go.jp
  • 語形データベース
    • 『現代雑誌九十種の用語用字(3) 分析』(国立国語研究所編集。以 下、『九十種』と略称する)所収の、「文節形度数表」を元にして、 文節形度数表を作成した。これは、助詞・助動詞がどのように接続 して文節を構成するかを頻度つきで一覧にしたもの。「語形 DB」は、この「文節形度数表」の文節形を原型とし、各品詞の部 分に次の語を割り当てて入力形として作成した文節構成のためのテ ストデータ。
    • 「汎用日本語形態素解析規則」に付属する資料として提供される
    • 連絡先: 佐野洋(sano@krl.toshiba.co.jp), ftp://ftp.aist-nara.ac.jp/pub/nlp/tools/juman/morph.tar.gz
  • 語の共起関係データ
    • 総計116万種類以上の共起関係のデータ。例えば、「雨-が-降 る」。この共起関係データは新聞から得ている。「が」「を」「で」 「の」「を」と四文字漢字列(16万種類)が対象である。
    • 配布の方法は、今のところ研究者からの要望に基づき個別に対応す る。費用については、研究用(大学、公的研究機関)に対して は実費程度(複写代、運送代、媒体代、その他費用)。 研究用以外の利用については別途相談のこと。
    • 連絡先: 〒675-01 兵庫県加古川市平岡町新在家2301 兵庫大学経済情報学部 田中康仁 Tel:(0794)27-5111 Fax:(0794)27-5112
  • 日本経済新聞CD-ROM版
    • 日本経済新聞東京本社発行の朝夕刊最終版と全国地方経済面の1年間の 全文記事とパソコン用検索ソフトを格納したCD-ROM.一部寄稿原稿を含む(ス ポーツ面記事,相場欄等は除く).収録形態はフルテキスト(写真,図版は含ま ない).90年版以降を販売中. 各年版の収録期間は,1月1日〜12月31日.
    • CD-ROM 1枚あたりの価格は130,000円(消費税別).
    • 問い合わせ先: 日経総合販売(株) 大阪支社(Tel:(06)202-0931 Fax:(06)202-4480)担当:大野
    • 言語処理学会員への研究利用許諾について
  • 日経(産業・金融・流通)新聞CD-ROM版
    • 日経産業新聞,日経金融新聞,日経流通新聞の1年間の 全文記事とパソコン用検索ソフトを格納したCD-ROM.収録形態はフルテキスト (写真,図版,相場欄は含まない).94年版から発売. 各年版の収録期間は,1月1日〜12月31日.
    • CD-ROM 1枚あたりの価格は130,000円(消費税別).
    • 問い合わせ先: 日経総合販売(株) 大阪支社(Tel:(06)202-0931 Fax:(06)202-4480)担当:大野
    • 言語処理学会員への研究利用許諾について
  • CD-毎日新聞(データ集)
    • 毎日新聞東京・大阪本社発行の1年分の記事約10万件の全文を収録. 社会面,解説面,経済面,国際面をはじめ,文化,家庭,総合,芸能,スポー ツ面も収録.91年版から発売.
    • CD-ROM 1枚あたりの価格は120,000円(税込).
    • 問い合わせ先: 〒143 東京都大田区大森北1-23-8 日外アソシエーツ(株) 営業本部: 村本 俊雄 Tel: (03)3763-5241 Fax: (03)3764-0845 または,毎日新聞社 メディア事業局 Tel:(03)3214-7906 Fax:(03)3287-1320 担当:川見
    • 入手方法
  • 朝日新聞全文記事CD-ROM
    • 85年以降の朝日新聞東京本社の最終版からスポーツ面を除くほとんどの 記事を収録.90年版からは大阪,九州,名古屋本社発行のニュース面も収録. 収録件数は年間約10万件.1年分が1枚のCD-ROMに収まっている.
    • 85年〜97年版 定価 各120,000円
    • 紀伊国屋書店 電子情報部 Tel:(03)3439-0123
  • Dow Jones Telerate/Kyodo News Service
    • 共同ニュース通信のテキスト94-95年.
    • LDCを通してCD-ROMで入手可.
  • 源氏物語
    • 源氏物語(雲隠を除く)のテキストデータ.約2.3Mbyte.
    • 城西国際大学 長瀬真理さんにより電子化されたもの. OTA(Oxford Text Archive) を通じて研究目的にのみ入手可能.また,東京大学大型計算機センター にも同じデータがあり,ユーザ登録することによって利用可能.
  • 現代日本語名詞シソーラス
    • 東京都立大学の荻野綱男氏によって作成された7万語の現代日本 語名詞のシソーラス.
    • 研究目的については無料で利用可能.
    • 問い合わせ先:荻野綱男 〒192-03 東京都八王子市南大沢1-1 東京都立大学 人文学部 Tel:(0426)77-2137 Email:ogino-tsunao@c.metro-u.ac.jp
  • The ZenBase CD-ROM No.1
    • 花園大学国際禅学研究所で作成された禅籍テキストのCD-ROM
    • 以下の住所にB5版の返信用封筒と現金1000円を送付することによっ て入手可能
    • 問い合わせ先: 〒604 京都市中京区西ノ宮壺ノ内町8-1 花園大学国際禅学研究所 Tel:075-811-5181, Fax:075-811-9664 Email: ursapp@mbox.kyoto-inet.or.jp URL: http://www.iijnet.or.jp/iriz/irizhtml/irizhome.htm
  • ライフサイエンス辞書
    • 京都大学薬学部と三島の国立遺伝研で作成しているライフサイエ ンス用語データベース
    • 生命科学領域で使われる用語の対訳を収集するとともに,実際に 電子メディアで活用することのできる「かな漢字変換」や「英和検索」 などの辞書およびツールをフリーウェアとして提供している
    • 問い合わせ先: 〒606-01 京都市左京区吉田下阿達町 京都大学薬学部薬理学講座 金子周司 Email: lsd@lsd.pharm.kyoto-u.ac.jp URL: http://lsd.pharm.kyoto-u.ac.jp
  • 英語基本単語リスト(5000語)
    • 名古屋大学へ英語を教えにきておられるアメリカ人の Linda Wooさんが 新たに作成された英語基本単語リスト。統計的な処理などをしたもので はなく、英語母語話者が日常的な語として選んだリスト。学習・教育・ 研究用には自由に利用可能。(外池俊幸)
    • 問い合わせ先: 名古屋大学言語文化部 外池俊幸 Email: f43633a@nucc.cc.nagoya-u.ac.jp URL: http://www.lang.nagoya-u.ac.jp/~tonoike/linda5000.html
  • 日外アソシエーツのオリジナルデータ・サービス
    • 書籍や電子出版物の元データをそのままCD-ROMに収めて販売するもの
    • 購入時に日外アソシエーツと契約書を交わす必要がある.
    • 日外アソシエーツ(株) Tel:(03)3763-5241(代) Fax:(03)3764-0845
    • http://www.nichigai.co.jp/newhp/dcs/dcs.html
  • テレビ放送の語彙調査
    • 1989年4月〜6月のテレビ放送を対象として行った語彙調査(延べ語数約 14万語)から番組本編とCMとを合わせ,約2万6千語からなる語彙表を収録し ている.番組本編に現れた約2万3千語には,語種・品詞情報はもとより,音声, 画面別に全体の使用度数・比率のほか,番組のジャンル,チャンネル,曜日,時 間帯,番組の長さ,視聴率,話者の性別・職業の情報とそれぞれにおける使用 度数を付与している.(話者の職業の情報はCD-ROM版のみ)報告書版と CD-ROM版とが販売されている.
    • CD-ROM版は書店では扱っていないため,直接出版社へ問い合わせのこと. 国立国語研究所報告114「テレビ放送の語彙調査II −語彙表−」(1997年) 大日本図書 9,500円+税 国立国語研究所言語処理データ集8「テレビ放送の語彙調査[語彙表] CD-ROM版」(2001年) 大日本図書 2,500円+税
    • また,関連する報告書として次のものも販売されている.
      • 国立国語研究所報告115「テレビ放送の語彙調査III −計量的分析−」(1999年) 大日本図書 5,000円+税
      • 国立国語研究所報告112「テレビ放送の語彙調査I −方法・標本一覧・分析−」 (1995年)大日本図書 8,000円+税 購入申し込み先: 大日本図書株式会社 〒115-8620 東京都中央区銀座1-9-10 Tel:(03)3561-8679 Fax:(03)3561-3065

海外の言語資源

  • European Language Resources Association
    • ECとヨーロッパ内の参加国によってサポートされて1995年に設立 された非営利団体。言語資源の開発と普及を目的としている。
    • 連絡先: ELRA/ELDA 55-57 rue Brillat-Savarin F-75013 Paris, France Tel : +33 01 43 13 33 33 Fax : +33 01 43 13 33 30 E-mail : mapelli@elda.fr http://www.icp.grenet.fr/ELRA/home.html
  • ICAME Corpus Collection
    • ICAME(International Computer Archive of Modern and Medieval English): NCCH(Norwegian Computer Centre for Humanities)により 1971年に設立.電子化された英語の資料とそれを利用した 研究に関する情報の収集と配布を行なっている.ICAME Corpus Collectionは、 LOB Corpus, Helsinki Corpus, London-Lund Corpusなどの入ったCD-ROM
    • Norwegian Computing Centre for the Humanities (adm@hd.uib.no) マニュアルとも一式で3,500NOK(US$500) ICAME, NCCH, Harald Haarfagres, gt. 31, N-5007 Bergen, Norwa
    • Tel: +47-5-212954, FAX: +47-5-322656
    • Email: adm@nora.hd.uib.no or knut@x400.hd.uib.no
    • http://www.hd.uib.no/whatis.html
  • ECI/MCI(European Corpus Initiative Multilingual Corpus I)
    • ACL/DCIの欧州版として1992年に設立.主な欧州言語,ト ルコ語,日本語,ロシア語,中国語の話し言葉と書き言葉 のコーパス(総単語数9300万語)を収集したECI/MC1という CD-ROM(約3500円)を発行している.
    • 連絡先: Henry Thompson (ht@cogsci.ed.ac.uk) HCRC, University of Edinburgh, 2 Buccleuch Place, Edinburgh, EH8 92W, Scotland FAX: +44-31-650-4587
    • Email: eucorp@cogsci.ed.ac.uk
    • http://www.cogsci.ed.ac.uk/elsnet/eci_summary.html
  • 「人民日報」CD-ROM
    • 中国共産党機関紙「人民日報」の全記事(1946年創刊号から1992年12月 末までの46年間の全記事をCD-ROM 92枚に収録したもの.
    • CD-ROM 1セット194万円
    • 問い合わせ先:ジェニシス株式会社 中国事業部 Tel: (06)361-1369, Fax: (06)361-1269
  • CLR(Consortium for Lexical Research)
    • 自然言語資源のためのrepository. 1994年11月現在活動を休止中だが, ftpアクセスは可能.
    • ftp://clr.nmsu.edu:/pub
  • Comlex Syntax and Pronunciation
    • New York University で開発された,英単語38,000語の統語辞書および 50,000語の発音辞書.
    • LDCを通してCD-ROMで入手可.
  • Continuous Speech Recognition (CSR) Corpora
    • DARPA Spoken Language Programによる,大規模語彙連続音声認識のための音声・テキストコーパス.
    • LDCを通してCD-ROMで入手可.
  • Oxford Advanced Learner's Dictionary of Current English
  • Penn Treebank
    • University of Pennsylvaniaで開発された,WSJ,ATIS,Brown Corpusの品詞タグ付き・括弧付きコーパス.
    • LDCを通してCD-ROMで入手可.
  • LONGMAN Dictionary of Contemporary English (LDOCE3)
    • ロングマン英語辞書の第3版.同辞書の1995年版に準拠し、自然 言語処理用に多くの付加情報が添付.e.g.高出現3000語への頻度情報、 8000の語義に対する意味コード、高出現動詞500語への文法パターンと 共起情報、British National Corpusから得られた相互情報量などが付 加されている.
    • 利用料はアカデミック価格でUS$2,000
    • 連絡先: Longman Dictionaries website: www.awl-elt/dictionaries/dictres.html Email: denise.denney@awl.co.uk または stephen.crowdy@awl.co.uk Denise Denney or Steve Crowdy Longman Dictionaries, Edinburgh Gate, Harlow, Essex CM20 2JE, UK
  • CHILDES(The Child Language Exchange System)
    • 子供の言語発達研究をサポートするためのデータを収集.
    • 世界中の研究者が収集したデータを互いに共有できるよう な国際的な言語データ共有システム,入力フォーマット, コンピュータ化した言語データを自動的に分析するプログ ラムを開発し,共有する活動をしている.1984年に設立. 英語をはじめ全部で22カ国語の発話データを収集.
    • 連絡先: Department of Psychology, Carnegie Mellon UniversityPittsburgh, PA 15213 USA Email: childes@andrew.cmu.edu, childes@andrew.bitnet ftp://poppy.psy.cmu.edu/

関連資料