Topic Modeling, Epistemology, and the English and German Novel

https://culturalanalytics.org/2017/05/topic-modeling-epistemology-and-the-english-and-german-novel/

この論文は英語とドイツ語の小説のコーパスを用いて、トピックモデルによって小説の認識的トピックを分析している。

まずコーパス全体のトピックモデリングによって認識的(epistemic)トピックを発見する。英語の場合含まれるのは”mind,” “reason,” “things,” “human,” “truth,” “knowledge,” “true,” “thing,” “religion,” “good,” “natural,“ ”life,” “general,” “make,” “part,” “virtue,” “power,” “opinion,” “sense,” “ideas,”など。

そして、そのトピックが含まれる割合が高いテクストを探す。

 

歴史的に見ると、英語のテクストもドイツ語のテクストも、18世紀末から19世紀前半のロマン主義時代に認識的なトピックの割合が高く、その後19世紀前半では下がる。20世紀には差が出て、英語はさらに下がっているが、ドイツ語は19世紀後半より上がる。

一方で、具体的な語(身体や室内など)のトピックは増加している。これは以前このブログで紹介した

moeglichkeit.hatenablog.com

Heuser/Le-Khacの議論に合致している。

よって、トピックモデルによる分析から、19世紀の間に小説から抽象的な語が減り具体的な語が増えたといえる。

次に、認識的なトピックを含む小説が、他にどのようなトピックを含んでいる確率が高いか分析すると、英語では「社会生活」、「愛と愛情」、「精神活動と対象」、ドイツ語では「人間精神」や未分類の抽象的なトピックが多かった。つまり、認識的なトピックは、他の抽象的なトピックと同時に出てくる傾向があるといえる。また、ドイツ語のほうがより抽象的なトピックが固まっていると言えるかもしれない。逆に、認識的なトピックと一緒に出てきにくいトピックは、やはり身体や動作などの具体的な語のトピックであった。

 

次に、副詞と形容詞のみに絞ったドイツ語のコーパスでトピックモデリングを行うと、認識的な副詞のトピック((”vielleicht,” “wirklich,” ”gar,” ”sogar,” ”möglich,” “gerade,” “natürlich,” “erst,” “allerdings”など)が明らかになる。

このトピックは20世紀に偏っており、減少した抽象性の代替の役割を果たしているのではないか?

このトピックの割合が高いのは、カフカと冒険小説家のカール・マイ

どちらも不慣れな環境での主人公の認識的な努力がこのトピックにつながっている。ならば、このような認識的な副詞や形容詞の使用は、小説の認識的懐疑の方向への進化を示しているのではないか?

コーパスに含まれる小説全体で見ると認識的なmodalの形容詞と副詞はそんなに増えてるとはいえない。しかし、認識論的なトピックが少なくmodal な形容詞が多い作品を抽出すると、多くは19世紀後半以降のもので、全体ではないにしてもそのような作品群が現れてきたと考えれば文学史的意味を見いだせるのではないか。

 

このように、物や感情を表す語などだけではなく、認識的なカテゴリから文学のデータ分析を行い文学史を検討することもできるのである。