Style at the Scale of the Sentence

再びStanford Literary Labのパンフレット5の紹介です。

 

テクスト分析において最頻語による分析がよく行われるが、それはテクストにこういう語が入っているというだけで、あまり文体分析らしくないとも言える。そこで、一文単位の文構造を分析してみようというのがこの論文である。19世紀イギリス小説コーパスを対象として、二つの節からなる文を抽出して、従属節(Dependent Clause,以下DC)と独立節(Independent Clause,以下IC)の順番によって文の中身に差が生じているかを調べた。

その結果、DC-ICという文構造の文とIC-DCという文構造の文では、前後の節の関係が大きく異なっていることがわかった。DC-ICでは二つの節が時間的順序になっているものが多く、IC-DCでは片方がもう片方を定義したり叙述するものが多かった。

 

IC-DCの場合、ICで出てきた人や物をDCで説明する構造のためにそうなる。DC-ICの場合、後に来るICがメインで、DCがその前座になる。

 

文構造によって出現しやすい語を分析すると、DC-ICという構造の文のDCの部分では”home” ,”room” ,”door”など場所を表すが出やすい。ICのほうでは “feelings”, “indignation”, “despair”,など感情を表す語が出やすい。従属節で場所の説明をして、独立節で登場人物の感情を描くという構造になっていると察せられる。

 

また、節の分析とは別に、動詞の形(過去形とか完了形とか受動態などの)とジャンルの関係の分析も行っている。これによってもジャンルの識別は可能であり、たとえばゴシックは完了形と受動態過去が多く、ジャコバン派小説は現在形や未来形が多く、ビルドゥングスロマンは助動詞と進行形が多い。

 

ジョージ・エリオット『ミドルマーチ』のテキストを読むことで、進行形が何かが起ころうとしているがまだ完成していない、進行中のイメージを表現していることがわかる。同様に、助動詞は不確定性や丁寧さや落ち着いた感情を表していることがわかる。

 

このように、データ分析と文学的なテクスト読解を組み合わせることによって真にデータの意味を理解できるようになり、新しい知見が得られるのである。