お知らせサーバ移転のため、サービスを一時停止します。 2014年12月18日(木)午前10時~午後1時(終了時間は前後する場合があります) NEWバージョン1.30を公開しました。新たに2語比較機能が新たに加わりました。 詳しくは上の[2語比較機能]ボタンをクリック! ■NINJAL-LWP for TWC とはNINJAL-LWP for TWC(ニンジャル?エルダブリュピー?フォー?ティーダブリュシー、略称NLT)は、日本語のウェブサイトから収集して構築した約11億語のコーパス『筑波ウェブコーパス』(Tsukuba Web Corpus: TWC)を検索するためのツールです。検索には、国立国語研究所(以下、国語研)とLago言語研究所が共同開発したコーパス検索システムNINJAL-LWP(NINJAL-LagoWordProfiler)を利用しています。同じシステムを利用したツールに、国語研が構築した1億語の『現代日本語書き言葉均衡コーパス』(Balanced Corpus of Comtemporary Written Japanese: BCCWJ)を検索するNINJAL-LWP for BCCWJ(NLB)があります。 このツールはレキシカルプロファイリングという手法を用いて、名詞や動詞などの内容語の共起関係や文法的振る舞いを網羅的に表示することができます。 ![]() ■使い方コンコーダンサでは検索語句を入力すると、その結果がコンコーダンスラインとして返ってきます。NLTでは、検索語句を入力する代わりに、まず調べたい語(NLTではこれを「見出し語」と呼びます)を選びます。見出し語として選べるのは、名詞、動詞、形容詞、連体詞、副詞の5種類の内容語です。 ![]() ここでは、「走る」という名詞について調べてみます。まず画面上の入力ボックスに「走る」または「はしる」(カタカナも可)または「hashiru」を入力して、[絞り込み]ボタンをクリックします。下のリストに「はしる」という読みの見出し語が3つ表示されますので、一番上の「走る」をクリックします。 ![]() クリックすると、「走る」の見出し語ウィンドウが開きます。ここでは、「が走る」の前にどのような名詞が来るかを調べてみることにします。左側の文法パターンのパネルの[グループ別]を選ぶと、一番上に[名詞+助詞 <]グループがあります。一番上の[…が走る]というパターンをクリックします。 ![]() すると、中央のコロケーションパネルに[名詞+が走る]のコロケーションが頻度順に表示されます。左側の用例パネルには、最も頻度の高い「車が走る」の用例が表示されます。 次に、特徴的なコロケーションを表示してみます。NLTでは、頻度順だけでなくMIスコアの順でも並べ替えることができます。MIスコアは統計指標の一つで、特徴的なコロケーションほど数値が高くなる傾向があります。ただし、低頻度のコロケーションの数値が過剰に高くなるため、低頻度のものを排除する必要があります。コロケーションパネルのヘッダーの[MI]をクリックしてから、パネル上で右クリックして[頻度20以上]を選びます。 ![]() すると、「虫ずが走る」、「戦慄が走る」などの「名詞+が走る」の特徴的な表現が上位に現れます。 ![]() それぞれのコロケーションをクリックすると、右のパネルにその用例が表示されます。ここでは、6番目の「閃光が走る」をクリックしてみます。コーパスで使われている実際の用例を一つずつ確認することができます。 ![]() 用例はセンテンス単位で表示されます。さらに前後の文脈を確認するときは、それぞれの用例の出典の部分をクリックすると、前後のセンテンスを表示するダイアログが開きます。 ![]() さらに、その右の矢印のアイコンをクリックすると、別ウィンドウ(またはタブ)にもとのウェブページに表示します。 ![]() このように、NLTでは、検索ウィンドウでまず見出し語を選んで、見出し語ウィンドウ上で、文法パターン、コロケーション、用例を行き来しながら、その見出し語の振る舞いの全体像をつかむことができます。クリックだけで簡単に操作できますので、思考を途切らせることなくさまざまな表現を思いのままに調べることができます。 詳しい使い方については、操作説明書(PDFファイル、約2.8MB)をご覧ください。 ■2語比較機能バージョン1.30では、新たに2語比較機能が加わりました。比較できるのは、同一の品詞の内容語(名詞、動詞、イ形容詞、ナ形容詞、連体詞、副詞)の組み合わせです。これ以外に、イ形容詞とナ形容詞、イ形容詞と連体詞、ナ形容詞と連体詞の比較も可能です。 ここでは、「冷える」と「冷める」という2つの動詞について調べてみます。見出し語検索のウィンドウの右上にある[2語比較検索]のボタンをクリックします。 ![]() 次に、[動詞」タブをクリックします。 ![]() 画面上の入力ボックスに「ひえる」と「さめる」(カタカナ、ローマ字も可)をスペースで区切って入力して、[絞り込み]ボタンをクリックします。下のリストに「ひえる」と「さめる」という読みをもつ見出し語が現れます。 ![]() 比較したい2語(ここでは、「冷える」と「冷める」)にチェックマークを入れて、リストの右上にある[2語比較]ボタンをクリックします。 ![]() 「冷える」と「冷める」の2語比較のウィンドウが開きます。 ![]() ここでは、ガ格名詞を比較してみます。左側の文法パターンパネルの一番上にある「…が冷える」または「…が冷める」のパターンをクリックします。 ![]() すると、中央のコロケーションパネルに「…が冷える」と「…が冷める」が表示されます。 ![]() 最初の状態では、コロケーションはLD差の降順に並んでいます。LD差というのは、左側のコロケーション(この場合は、「…が冷える」)のLD(ログダイス値)から、右側のコロケーション(この場合は、「…が冷める」)のLDを引いたものです。LD差が大きくなればなるほど、「…が冷える」の特徴的なコロケーションと言えます。逆に、LD差が小さくなればなるほど、「…が冷める」の特徴的なコロケーションになります。視覚的に理解しやすいように、LD差が大きくなるほど濃い黄色で、LD差が小さくなるほど濃い紫でハイライトされます。上の画面では、「…が冷える」の特徴的なコロケーションが表示されていますが、「…が冷める」の特徴的なコロケーションを見るときは、[LD差]のヘッダーをクリックして、LD差の昇順に並べ替えます。 ![]() ![]() 両方のコロケーションを詳細に分析するために、コロケーションパネルのフッターに3種類のボタンセットが用意されています。このボタンを組み合わせることで、頻度、LD差、出現位置(2語のうちどちらの語と共起しているか、両方か、どちらか一方か)を自由に調整して、分析を進めることができます。 ![]() これ以外に、両方の語に共通するコロケーションの違いを用例レベルで調べることなどもできます。詳しい使い方については、操作説明書(PDFファイル、約2.8MB)の10節をご覧ください。 ■筑波ウェブコーパスの構築TWC ver.1.10では、日本語のウェブサイトから収集した11億3800万語のデータを使用しています。 ウェブ上からのテキストの収集では、検索エンジンのAPIを利用して、ウェブページのURLを収集した後、そのURLのデータを収集する一般的な手法に従っています。以下が具体的なコーパス構築の手順です。
■アノテーションNLTでは、コロケーションや文法的振る舞いの情報を抽出するために、BCCWJのデータにアノテーションを付与した上で解析しています。アノテーションに使用している解析器?辞書は以下の通りです。 ●形態素解析 MeCab 0.98 + IPA辞書 2.7.0 形態素解析用のIPA辞書は、代表表記の情報を含まないため、独自に拡張して代表表記に対応させています。 ●係り受け解析 CaboCha 0.60 ■ご利用にあたって
■更新履歴
■お問い合わせNLTに関するお問い合わせは以下までお願いいたします。 ![]() |
|