Style at the Scale of the Sentence

再びStanford Literary Labのパンフレット5の紹介です。

 

テクスト分析において最頻語による分析がよく行われるが、それはテクストにこういう語が入っているというだけで、あまり文体分析らしくないとも言える。そこで、一文単位の文構造を分析してみようというのがこの論文である。19世紀イギリス小説コーパスを対象として、二つの節からなる文を抽出して、従属節(Dependent Clause,以下DC)と独立節(Independent Clause,以下IC)の順番によって文の中身に差が生じているかを調べた。

その結果、DC-ICという文構造の文とIC-DCという文構造の文では、前後の節の関係が大きく異なっていることがわかった。DC-ICでは二つの節が時間的順序になっているものが多く、IC-DCでは片方がもう片方を定義したり叙述するものが多かった。

 

IC-DCの場合、ICで出てきた人や物をDCで説明する構造のためにそうなる。DC-ICの場合、後に来るICがメインで、DCがその前座になる。

 

文構造によって出現しやすい語を分析すると、DC-ICという構造の文のDCの部分では”home” ,”room” ,”door”など場所を表すが出やすい。ICのほうでは “feelings”, “indignation”, “despair”,など感情を表す語が出やすい。従属節で場所の説明をして、独立節で登場人物の感情を描くという構造になっていると察せられる。

 

また、節の分析とは別に、動詞の形(過去形とか完了形とか受動態などの)とジャンルの関係の分析も行っている。これによってもジャンルの識別は可能であり、たとえばゴシックは完了形と受動態過去が多く、ジャコバン派小説は現在形や未来形が多く、ビルドゥングスロマンは助動詞と進行形が多い。

 

ジョージ・エリオット『ミドルマーチ』のテキストを読むことで、進行形が何かが起ころうとしているがまだ完成していない、進行中のイメージを表現していることがわかる。同様に、助動詞は不確定性や丁寧さや落ち着いた感情を表していることがわかる。

 

このように、データ分析と文学的なテクスト読解を組み合わせることによって真にデータの意味を理解できるようになり、新しい知見が得られるのである。

A Quantitative Literary History of 2,958 Nineteenth-Century British Novels: The Semantic Cohort Method

今日は同じくStanford Literary Labのパンフレット4

A Quantitative Literary History of 2,958 Nineteenth-Century British Novels: The Semantic Cohort Methodを紹介する。

この論文は、1785-1900年のイギリス小説変化を3000近い作品のデータを用いて分析したものだ。

分析方法として、個々の単語ではなく、複数の近い意味の単語で形成される意味の場に着目して、歴史的変化を調べているのが特徴だ。これによって、一つの単語の変遷を見るよりも正確にテクストの変化を捉えられるだろう。

意味の場を構成する単語を選択するために、コーパス中での共起を用いている。

 

調査の結果として、elegant,mild,moral,sin,correct,partial,sentimentなど、抽象的・社会規範的・評価的・対立的な意味を表す語が19世紀イギリス小説において減少していることがわかった。

 

一方、go,come,face,red,down,hardなどの具体的で物理的な語は19世紀を通して増加していることがわかった。これらの語は描写的である。

 

この抽象の減少と具体の増加という現象を、トピックモデルを用いて検証したところ、裏付ける結果が得られた。

 

なぜこのような変化が起こったのか? それは、小説に書かれる空間が狭く私的な家庭内から広く公的な都市に変化したということがあり(ジェイン・オースティンディケンズがそれぞれを象徴する)、冒険物語やSFならさらに広い舞台を描く。小説が新しい社会を描くようになったことで、古い価値観による価値判断では充分に表現できなくなったのである。つまり、小説の抽象から具体への変化は、単に小説だけの変化ではなく、当時のイギリス社会の変化―工業化・都市化、そしてそれに伴う社会構造の変化―に対応しているのだ。

 

この論文は100年を超える期間でのイギリス小説の変化を、3000近い大量のテクストを用いて検証するというスケールの大きなもので、抽象から具体へという非常にわかりやすい対立構造を導き出し、しかもそれをイギリス社会の変化から説明することでインパクトを与えている。統計分析と文学解釈を結びつける方法論的な意識も強く、かなり高く評価できる。

 

複数の単語のグループを分析対象にするのは、やはり一つの単語を扱うよりも優れている点が多く、うまく扱えるなら良いだろう。

Quantitative Formalism: an Experiment

このブログでは、デジタル技術を用いたテクスト分析などについて書いていこうと思います。

まずは英語の論文紹介をしていきます。

 

 Stanford Literary Lab

( https://litlab.stanford.edu/ )は優れたテクスト分析の論文を多く自サイトで公開している。

今回はそのパンフレット1”Quantitative Formalism: an Experiment”。

 

この論文では文学作品の分類を扱っている。

分類の方法としては二つ、Docuscopeと最頻語を用いている。

Docuscopeというソフトは、英語の単語を様々なカテゴリーに分けた独自の辞書に照らし合わせてカウントするものだ。例えばテクスト中に”I”や”me”が出てきたら、「一人称」のカテゴリーに入るものとして記録される。

最頻語は、テクスト中に出てくる頻度の多い語だけに絞って、それらの出現率に注目するものだ。

この二つのデータに基づいて、主成分分析や、クラスタ分析などの方法を用いて、シェイクスピアの作品や、19世紀イギリス小説のジャンル分類を行っている。シェイクスピアで言えば、喜劇や悲劇や史劇など。19世紀イギリス小説の場合なら、ゴシック小説とか教養小説とか工業小説などだ。

結論を一言でいうと、Docuscopeや最頻語によって文学テクストをジャンルごとに正しく分類するのは可能だということが示される。すなわち、同じジャンルに属する作品は似た文体的特徴を持っている。言い換えればジャンルはそれぞれ固有の文体を持っているということだ。

 

デジタルなテクスト分析についてこのブログで書いていくにあたって、量的なテキスト分析は強力である、というのは大前提だ。そうでないならやる意味がない。この論文では、ジャンルを識別するという形でその威力を発揮している。分析で用いられている最頻語とは、”a”や”of”や”so”などの、色々な形で用いられる語である。一見、あまりにも普通の語なのでこれらが特定の文学ジャンルに多く用いられるわけではない気がするが、実はこのような語でもジャンルによる偏りが存在してそれを検知することでコンピューターはジャンル識別が可能である、というのが面白いところだ。

ところで、この論文ではDocuscopeと最頻語という二つのデータを用いている。後者は単純に多い単語を数えただけなのに対して、前者は単語の意味を調べているため、前者のほうが情報が多いと考えられる。情報が多ければ識別できるのはある意味当たり前で、少ない情報から識別できるほうがすごそうという考えから、後者を評価したいというのはある。また、単純に日本語でDocuscopeのような便利なツールを知らない(あったら教えて下さい)ので、日本語での分析にはどうせ使えないから、評価してもしょうがないというのもある。

 

他にいくつかこの論文で書かれているポイントを挙げておく。

・ジャンル識別に成功した、といっても、それはコンピューターの分析が人間の分析と一致しただけで、コンピューターが新しい知見を与えてくれるわけではない。

・コンピューターがジャンルを識別でき、ジャンルは文体に影響を与えているとはいっても、文体を決定する要素はもちろんジャンルだけではなく、年代や作者などもある。

・ジャンルは相対的なものである。ジャンルを分類するのに役立つ特徴は他のジャンルとの違いであって、普通に作品を読んだ時のジャンルの特徴と一致するとは限らない。

・ジャンルを識別する特徴がわかっても、なぜその特徴がジャンルを分かつのかということは、より深く考察しなければならない。