日语词汇量 日语词的数量可以通过词典的收词数量和使用量两个参数来把握。 日本小型国语辞典如《新明解国语辞典》一般收词约为7、8万条, 日本几种主要的国语辞典收词数
表1 另一方面,日语词对日常性文章文本的覆盖率又是相当低的。据统计,若掌握词频最高的2000个词,就能理解汉语内容的80%,而日语只能理解70%。反之,日语要理解96%的内容则要记住22000个词,而法语若掌握5000个词,就能理解96%。
2)(共时)实际使用的词汇量 据统计,日本20岁左右成年人的平均词汇量是50000个词左右。其中,小学毕业时约为26000词,初中毕业时约为40000词。在国际日语能力考试中,一级水平的词汇量为10000个词。由此可见,即使学习者的词汇量已达到高级水平,也只是日本普通成年人词汇量的五分之一。 1956年的现代杂志90种调查,40016个词,除掉地名人名,为30331。1966年朝日每日读卖三种报纸的抽样调查,47850,除掉专有名词和符号等,29822。可知,日常大约在4万左右。故日本出版的各种国语辞典(面向学生)收词为4到7万。 区别词数和总计词数 对词汇进行数量统计时常常要用到总计词数(延べ語数)和区别词数(異なり語数)。总计词数:指一个词的总计数量。 区别词数:指词的种类数目 利用这一对概念我们能够简洁地勾画出词的量与类的关系。如下图是日本国立国语研究所1956年实施的现代杂志90种词汇调查结果,现代日语中和语词在总计词数上超过了汉语词,但在区别词数上汉语词则要略占上风。 基本词汇
10000词 ??91.7% 2)基本词汇和基础词汇 ===============================
附录:日语词汇量在线测速:
この語彙数推定テストは, NTTコミュニケーション科学基礎研究所が, 単語親密度(NTTデータベースシリーズ「日本語の語彙特性」第1巻?単語親密度 [天野,近藤 (1999) 三省堂])を利用して開発したテストです(特許第3331286号)。==>>>> Test Link: http://www.kecl./icl/lirg/resources/goitokusei/goi-test.htmlテスト解説
1.はじめに この語彙数推定テストは、NTTデータベースシリーズ「日本語の語彙特性」第1巻の単語親密度データベースを用いた簡単でかつ精度の高い推定テストです。 単語親密度とは、その単語がどの程度「なじみ」があると感じられるかの主観的評定値です。NTTデータベースシリーズ「日本語の語彙特性」第1巻の単語親密度データベースには、新明解国語辞典第4版の見出し語約7万語に対する親密度評定値が収録されています。この親密度は、20代前半を中心とした32名が7段階評定(1:なじみがない、7:なじみがある)を行った結果の平均値です。 2.単語親密度を用いた語彙数推定方法 辞書を用いて語彙数を求める方法で最も単純な方法は、辞書中の全単語を1つ1つ知っているかどうかをテストする方法です。しかし、この方法ではあまりにも時間がかかりすぎます。そこで、時間を短縮するためによく行われる方法は、辞書からランダムに選んだ少数の単語のセットを使う方法です。この方法では、各単語を知っているかどうかをテストし、知っていると答えた単語のセット中における比率を求め、その比率を辞書の単語数にかけ算して語彙数を推定します。 しかしこの方法では、ランダムに選んだ単語がたまたま非常に易しい単語ばかりであったり、逆に難しい単語ばかりであったりする可能性が0ではなく、推定の精度があまり高くないという問題があります。結局、この精度を上げるためには、テストする単語数を多くする以外になありません。しかし単語数を多くすると時間がかかってしまうというジレンマに陥ります。 このような精度と時間の問題を解決するために、我々は単語親密度を用いて語彙数を推定する方法を考案しました。 単語親密度は、その単語に対する「なじみ」の程度を表わします。単語親密度はその単語がどの程度よく知られているかと相関が高いと言われています。つまり、単語親密度が高いほどよく知られている単語なのです。したがって、ある人にとってみれば、ある一定以上の単語親密度を持つ単語はほとんどすべて知っている単語であり、それ未満の単語親密度を持つ単語はほとんど知らないといえます。 そして、ある一定以上の単語親密度を持つ単語の数はNTTデータベースシリーズ「日本語の語彙特性」単語親密度データベースから容易に計算することができます。ですから、この知っている単語と知らない単語の境界の単語親密度を求めることができれば、個々人の語彙数を推定することが可能になるのです。 3.語彙数推定法 3.1 テストの作成 このテストに使用した単語は、NTTデータベースシリーズ「日本語の語彙特性」単語親密度データベースから、単語親密度を基準に選択されたものです。実際には、単語を親密度順にならべ、目標とするテスト項目数になるように、ある一定間隔で単語を取り出しました。 この方法は、先に述べた辞書からランダムに単語を選択する語彙数推定方法と一見似ていますが、単純な比率から全体の語彙を推定するのではなく、単語親密度の分布に従がった語彙数の推定を行う点で優れています。 3.2 単語親密度境界の決定 全体としてみれば高親密度単語は知っている場合がほとんどであり、低親密度単語は知らない場合がほとんどとなるはずです。しかし、単語親密度の高い順に単語を並べたとき、だんだん単語親密度が下がるにつれて知らない単語が出現する可能性が高くなりますが、たとえある単語親密度において知らない単語が出現したとしても、もっと単語親密度の低い単語を知っている可能性があります。つまり、知っている単語と知らない単語の単語親密度境界付近では、回答に多少のばらつきがあると考えられます。したがって、知っている単語と知らない単語の親密度境界を定めることはそれほど簡単ではありません。 本方法では、このばらつきを考慮に入れるため、単語親密度順に判断をしたときに知らない単語が二つ以上連続する単語の親密度と、知っている単語が二つ以上連続する単語の親密度との中間点を単語親密度の境界としました。 なお、この他にも正規分布やロジスティック分布を使って単語親密度の境界を求める方法も可能ですが、多少話しが難しくなるのでここでは説明を省きます。 3.3 語彙数の推定 上で求めた単語親密度境界以上の単語の数をデータベース中で数えあげて推定語彙数としました。 4.問題点 境界の決定の困難さは既に述べたとおりです。いろいろな決定方法 がありますし、どの方法が実際の語彙数によく合うかは残念ながらまだ判明していません。また、この推定方法に限ったことではありませんがは、推定される語彙数は常に基となる辞書(またはデータベース)に依存します。つまりここで推定される語彙の最大数は、辞書(またはデータベース)の語数すなわち約7万語であり、それ以上にはなりません。 また、ここで用いた新明解国語辞典第四版では、固有名詞や複合語などがあまり収録されていません。したがってここで推定された語彙数は実際にあなたが知っている単語数よりも少ない可能性があります。 「図説日本語」林大監修(角川書店)推定:
<END>
|
|