文節
文節(ぶんせつ)とは、日本語の文法(文語体ならびに現代日本語文法)において、言葉を細かく区切った際に不自然にならない最小の単位(単語とは異なる)。また音声言語的にも句切ることなくひとつらねで発音される単位である。言語学と用語に少しズレがあり、言語学で言う「語」に近い。
概要
編集日本語のいわゆる四大文法のいずれにおいてもだいたい同様に区切られるが、「文節」という名でその単位を明確にしたのは橋本文法である。橋本文法では文節を「文を句切りながら発音して、実際の言語としてはそれ以上に句切ることはない個々の部分」としている。学校文法における指導などでは「さ」「よ」「な」「ら」「ぞ」「ね」などを挟むことができる所で切る、と説明されている。
文節は、1個の自立語(あるいは「詞」、名詞や動詞など。品詞#日本語も参照)に、0個以上の付属語(あるいは「辞」、助詞と助動詞。品詞#日本語も参照 )、および接辞(丁寧語の「お-」など)によって構成される(あるいは、それらに分解できる)。
初期の橋本文法では、文を、文節があたかも1本の列のようにつながったような構造のものとして扱っていたが、後に「連文節」により、言語学で言う「句」のような、「複数個の文節がまとまって1個の文節のような働きをするもの」が導入された。学校文法でも連文節を導入することもある[1]。
日本語の自然言語処理と文節
編集英語などでは、文節に相当する単語でまず区切られており、それを形態素の単位に細分するのに対し、日本語の自然言語処理では、日本語がもっぱらわかち書きなどをせず、ベタ書きすることから、日本語においてはまず形態素解析を行い、つぎにトップダウンの処理を行なって、そのすり合わせ結果から文節となるカタマリを切出すチャンキングが必要となる。
自然言語解析の下位分類としての日本語処理においては、構文解析は文節間の係り・受けの関係を解決することであり、個々の文節の成りたちを分析するのが形態素解析である。しかしながら、日本語は省略が多いので、チャンキングの際に省略された部分を推定する必要があり、この推定の精度が甘いと形態素解析で使われている記述文法にも矛盾が生じてくるため、チャンキングの精度を確保するのが難しいという苦労もある。たとえば、「美しいです」の「美しい」は連体形であり、「です」は体言に続く用言なので、「美しい何かです」の略と考えなければ連体形と連用形の区分に矛盾が起こる。