Quantitative Formalism: an Experiment - デジタル・ヒューマニティーズな日々

このブログでは、デジタル技術を用いたテクスト分析などについて書いていこうと思います。

まずは英語の論文紹介をしていきます。

Stanford Literary Lab

( https://litlab.stanford.edu/ )は優れたテクスト分析の論文を多く自サイトで公開している。

今回はそのパンフレット1”Quantitative Formalism: an Experiment”。

この論文では文学作品の分類を扱っている。

分類の方法としては二つ、Docuscopeと最頻語を用いている。

Docuscopeというソフトは、英語の単語を様々なカテゴリーに分けた独自の辞書に照らし合わせてカウントするものだ。例えばテクスト中に”I”や”me”が出てきたら、「一人称」のカテゴリーに入るものとして記録される。

最頻語は、テクスト中に出てくる頻度の多い語だけに絞って、それらの出現率に注目するものだ。

この二つのデータに基づいて、主成分分析や、クラスタ分析などの方法を用いて、シェイクスピアの作品や、19世紀イギリス小説のジャンル分類を行っている。シェイクスピアで言えば、喜劇や悲劇や史劇など。19世紀イギリス小説の場合なら、ゴシック小説とか教養小説とか工業小説などだ。

結論を一言でいうと、Docuscopeや最頻語によって文学テクストをジャンルごとに正しく分類するのは可能だということが示される。すなわち、同じジャンルに属する作品は似た文体的特徴を持っている。言い換えればジャンルはそれぞれ固有の文体を持っているということだ。

デジタルなテクスト分析についてこのブログで書いていくにあたって、量的なテキスト分析は強力である、というのは大前提だ。そうでないならやる意味がない。この論文では、ジャンルを識別するという形でその威力を発揮している。分析で用いられている最頻語とは、”a”や”of”や”so”などの、色々な形で用いられる語である。一見、あまりにも普通の語なのでこれらが特定の文学ジャンルに多く用いられるわけではない気がするが、実はこのような語でもジャンルによる偏りが存在してそれを検知することでコンピューターはジャンル識別が可能である、というのが面白いところだ。

ところで、この論文ではDocuscopeと最頻語という二つのデータを用いている。後者は単純に多い単語を数えただけなのに対して、前者は単語の意味を調べているため、前者のほうが情報が多いと考えられる。情報が多ければ識別できるのはある意味当たり前で、少ない情報から識別できるほうがすごそうという考えから、後者を評価したいというのはある。また、単純に日本語でDocuscopeのような便利なツールを知らない（あったら教えて下さい）ので、日本語での分析にはどうせ使えないから、評価してもしょうがないというのもある。

他にいくつかこの論文で書かれているポイントを挙げておく。

・ジャンル識別に成功した、といっても、それはコンピューターの分析が人間の分析と一致しただけで、コンピューターが新しい知見を与えてくれるわけではない。

・コンピューターがジャンルを識別でき、ジャンルは文体に影響を与えているとはいっても、文体を決定する要素はもちろんジャンルだけではなく、年代や作者などもある。

・ジャンルは相対的なものである。ジャンルを分類するのに役立つ特徴は他のジャンルとの違いであって、普通に作品を読んだ時のジャンルの特徴と一致するとは限らない。

・ジャンルを識別する特徴がわかっても、なぜその特徴がジャンルを分かつのかということは、より深く考察しなければならない。