Self-Repetition and East Asian Literary Modernity, 1900-1930

https://culturalanalytics.org/2018/05/self-repetition-and-east-asian-literary-modernity-1900-1930/

 

近代東アジアの新しい文学として、日本には私小説、中国にはロマン主義小説がある。この2つは、自伝的であること、心理的語りが重要であること、新しい文体を採用していることなどの共通点があり、近代文学において重要なジャンルだとされている。

統計分析を用いて、この二つのジャンルの特徴が反復だと示す。

 

反復が多い作品は語彙が貧しく情報量が少ないと考えられる。タイプ-トークン比やエントロピー、語彙多様性を測るためのユールのK値やギローのC値を用いて、私小説ロマン主義を、そうでない小説と比較する。

すると、私小説ロマン主義小説は他の作品と比べると語彙の多様性が少なく、繰り返しが多いことがわかった。

 

より細かい特徴を掴むため、思考や感覚動詞、一人称・三人称代名詞、句読点や機能語の比率を調べたところ、これらは私小説ロマン主義小説の特徴として表れていた。

思考や感情を表す語が増えるとエントロピーが減少するという関係が見られた。

私小説とその他の人気のある小説を統計的に識別することは可能である。

 

繰り返しという現象が観測されても、それをどう解釈するかは難しいので、特徴的なテクストを見てみる。

特に繰り返しが多い私小説を見ると、神経衰弱状態を描いたものが見られる。

コーパスの中で最も私小説的だったのは、武者小路実篤『お目出たき人』。これは狂気、自己中心的な精神を描いている。

 

中国文学については、知識がないので省略。

 

この論文を参考にしてちょっと私小説について書いてみたい。

Towards a Poetics of Strangeness: Experiments in Classifying Language of Technological Novelty

Towards a Poetics of Strangeness: Experiments in Classifying Language of Technological Novelty « CA: Journal of Cultural Analytics

 

SFは見たことのない奇妙なものを見せてくれるジャンルである。この論文では、SFというジャンルの重要な要素である奇妙さ(strangeness)をコンピューターによって言語のレベルで計量することを試みる。

しかし、SFで用いられる科学用語は時代の進歩によって全然変わってくるので、歴史的に一貫した特徴を考えると固有名詞などでは難しい。

そこで、人間によってSFの文を奇妙なものとそうでないものにタグ付けし、教師あり学習を行った。

SFの奇妙さを分類する上で最も重要な単語は定冠詞「the」で、特定の物とか概念に注目させる機能を持つからだと思われる。

また、”of,” “to,” “in,” “by”などの前置詞も、順序、階層、規模などの名詞間の比較関係を示しSFの奇妙さを構成する。

また、ハイフンは二つの名詞をくっつけて新語を作成するために重要。

他に、”control,” “sun,” “power”などの単語は、それ自体新しいテクノロジーなどは示さないが、その使い方によって奇妙さを生み出す。

総合的に、用いられてる単語からコンピューターによってSFの奇妙さを予測することは可能である。

 

奇妙さというのは普通から外れているということだから、予測が難しそうではあるが、それが実際は可能であるというお話。

Topic Modeling, Epistemology, and the English and German Novel

https://culturalanalytics.org/2017/05/topic-modeling-epistemology-and-the-english-and-german-novel/

この論文は英語とドイツ語の小説のコーパスを用いて、トピックモデルによって小説の認識的トピックを分析している。

まずコーパス全体のトピックモデリングによって認識的(epistemic)トピックを発見する。英語の場合含まれるのは”mind,” “reason,” “things,” “human,” “truth,” “knowledge,” “true,” “thing,” “religion,” “good,” “natural,“ ”life,” “general,” “make,” “part,” “virtue,” “power,” “opinion,” “sense,” “ideas,”など。

そして、そのトピックが含まれる割合が高いテクストを探す。

 

歴史的に見ると、英語のテクストもドイツ語のテクストも、18世紀末から19世紀前半のロマン主義時代に認識的なトピックの割合が高く、その後19世紀前半では下がる。20世紀には差が出て、英語はさらに下がっているが、ドイツ語は19世紀後半より上がる。

一方で、具体的な語(身体や室内など)のトピックは増加している。これは以前このブログで紹介した

moeglichkeit.hatenablog.com

Heuser/Le-Khacの議論に合致している。

よって、トピックモデルによる分析から、19世紀の間に小説から抽象的な語が減り具体的な語が増えたといえる。

次に、認識的なトピックを含む小説が、他にどのようなトピックを含んでいる確率が高いか分析すると、英語では「社会生活」、「愛と愛情」、「精神活動と対象」、ドイツ語では「人間精神」や未分類の抽象的なトピックが多かった。つまり、認識的なトピックは、他の抽象的なトピックと同時に出てくる傾向があるといえる。また、ドイツ語のほうがより抽象的なトピックが固まっていると言えるかもしれない。逆に、認識的なトピックと一緒に出てきにくいトピックは、やはり身体や動作などの具体的な語のトピックであった。

 

次に、副詞と形容詞のみに絞ったドイツ語のコーパスでトピックモデリングを行うと、認識的な副詞のトピック((”vielleicht,” “wirklich,” ”gar,” ”sogar,” ”möglich,” “gerade,” “natürlich,” “erst,” “allerdings”など)が明らかになる。

このトピックは20世紀に偏っており、減少した抽象性の代替の役割を果たしているのではないか?

このトピックの割合が高いのは、カフカと冒険小説家のカール・マイ

どちらも不慣れな環境での主人公の認識的な努力がこのトピックにつながっている。ならば、このような認識的な副詞や形容詞の使用は、小説の認識的懐疑の方向への進化を示しているのではないか?

コーパスに含まれる小説全体で見ると認識的なmodalの形容詞と副詞はそんなに増えてるとはいえない。しかし、認識論的なトピックが少なくmodal な形容詞が多い作品を抽出すると、多くは19世紀後半以降のもので、全体ではないにしてもそのような作品群が現れてきたと考えれば文学史的意味を見いだせるのではないか。

 

このように、物や感情を表す語などだけではなく、認識的なカテゴリから文学のデータ分析を行い文学史を検討することもできるのである。

Fictionality

フィクションの特徴とはなんだろうか? 何がフィクションとノンフィクションを分けるだろうか? その答えは当然いくつかの観点から考えられるが、この論文では用いられている単語からフィクションのフィクション性を計量している。

単語を様々なカテゴリに分けてくれるLWICというソフトを用いて、フィクションとノンフィクションの単語を調べる。

すると、200年間の長いスパンで、フィクションをノンフィクションから識別する語彙的特徴はかなり一貫していて、かなりの精度で識別できる。

つまり、多くのフィクションは共通のノンフィクションとは異なる語彙的特徴を持っていると言える。

フィクションをノンフィクションから区別する特徴として、感嘆符や”you”や”I”や引用など、

家族や家、身体に関係する語、知覚動詞などがある

フィクションの中でも小説固有の特徴を探るために、非小説フィクション(叙事詩や古典や童話など)と小説を比較してみる。

そうするとフィクションと非フィクションの差異よりは識別可能性は下がるのだが、小説とその他のフィクションの語彙に違いはある。

小説とその他のフィクションを区別する特徴として、動詞の多さと多様な時制がある。他に、否定や不一致や洞察などの認知的カテゴリ。つまり、小説は疑いやためらい、条件や不可能性、不確実性などの、世界に対する距離を取るような関係を特徴として持つ。

加えて、知覚動詞や、”admit” や”imagine”などの精神活動を表す語も特徴であり、これらは小説の反省性を表す。

一言でいうと、小説には現象学的(phenomenological)な傾向がある。

世界そのものではなく、人間の世界に対する出会いや感じ方を重視することが小説を特徴づけている。これは古典的フィクションにないものである。

 

単語の階層的関係などを含んだ概念辞書であるWordnetを用いて、単語がテクスト内の別の単語の上位語である割合を調べることによって、どの程度テクストが特定的(specific)であり、より具体的に世界を描いているかを測れる。

また、テクスト中にどの程度多くの物理的実体を表す単語が現れているかを調べる。

これらの計測の結果、小説の具体性が、19世紀の間に実際に変化していることがわかる。

19世紀の前半において、古典的なフィクションと比較した場合、小説は抽象化の度合いが大きいが、この違いは19世紀の後半までに消える。

一方、特定性ということで言うと、19世紀前半は他のフィクションと同じだが、19世紀後半になるとやや小説のほうが特定的になる

イアン・ワットの議論では小説は初期から具体的だということになっているが、このデータでは異なっていて、具体的になったのは少し時間が経った後である。その前段階に位置する抽象的な小説も歴史的に重要である。

 

フィクションとは何か?

小説の他のフィクションとは異なる特徴とは何か?

という大問題に挑戦する意欲的論文である。

著者であるAndrew Piperの論文は他のものも確かな文学的教養とそれを統計分析にうまく結びつける手腕が(ここでは触れていないが)素晴らしい。

The Life Cycles of Genres

今回から、一旦Stanford Literary Labから離れて、https://culturalanalytics.org/の論文を紹介していきます。

今日の論文はこちら

https://culturalanalytics.org/2016/05/the-life-cycles-of-genres/

 

ジャンルの概念は難しい

フランコモレッティはジャンルの寿命は25年と主張した。

しかし、普通に考えるとミステリとかはジャンルの寿命100年以上ある。

ジャンルは単一の定義をすることはできない。どのジャンルに入るか不明確な作品もあるし、サブジャンルの問題などもある。

この論文では使われている単語の類似性でジャンルを識別し、その識別可能性の高さによって、ある作品がそのジャンルらしい作品であるとか、ジャンルが歴史を通してその類似性を保っているかなどを論じている。

 

まず探偵小説。

探偵小説の開祖であるポーの作品は、すでに充分に探偵小説らしい特徴を持っていて、むしろその少し後の作品のほうが探偵小説らしくない。

20世紀に入ると、探偵小説は識別可能性が高く、つまりより探偵小説らしくなっていく。

探偵小説は160年(1829年から1989年)にわたって、用いられている単語に探偵小説らしさを保ち続けていることがデータからわかる。

探偵小説の特徴後として、“Police," "murder," "investigation," "crime," "Suspicion," "evidence," "prove," "theory," "coincidence"などがある。

"door," "room," "window," "desk" などの部屋に関する語彙も、探偵小説の特徴である。逆に、子供や教育に関する単語は入っていると探偵小説である確率が下がる。

 

次にゴシック。

これもどう定義するか難しい、ホラーなども定義によって含んだり含まなかったりする。

データ分析の結果として、探偵小説よりも識別が難しいということがわかった。

すなわちゴシック小説は歴史を通した共通点が少ない

 

ジャンルを識別するにあたって、25年とか短いスパンの作品群のほうが一貫性があるのは当然だが、探偵小説は150年スパンで一貫性があり、モレッティのジャンル25年寿命説への反証となっている。

 

しかし、探偵小説くらい100年以上の長期に渡って語彙の一貫性を保っているジャンルは他にない。

 

SFの語彙による分類は困難がある。初期のSFの未来像と今のものは全く違う。『ニューロマンサー』と『フランケンシュタイン』が違うように。

SFというジャンルは探偵小説ほど識別しやすくないが、ゴシックよりは見分けやすく、100年以上の長いスパンでジャンルとしての一貫性を持っている。

SFは大きさや多数を表す"vast,""far," "larger,"”thousands”などの語を多く使用するという特徴がある。他にも、”earth,””human,””creatures,””its”などが多い。

 

SFの歴史において、1920年代以降にSF雑誌などの影響でジャンルが確立されたと言われることが多い。そうだとしたら、このデータ分析では、1920年代以降の作品はそれ以前と比べて識別性が上がるはずだが、特にそういう現象は観測されなかった。これはSFの歴史観への反論になるかもしれない。

 

結論として、一口にジャンルと言っても、存続する期間も違うし、ジャンルとしてのまとまりの強さも違う。データ分析によってそれぞれのジャンルの固有性を量的に比較することができるのである。

 

Canon/Archive. Large-scale Dynamics in the Literary Field

 今日も今日とてパンフレット11。

この論文ではまず、文学史的に高い評価を与えられた正典(canon)と、そうではない作品=アーカイブ(archive)の比較を行っている。正典に入る作品は、複数の作品リストを照らし合わせて決める。

権威と人気をそれぞれ縦横軸にとって散布図を描くことで、ピエール・ブルデューが概念として描いたような文学野の勢力図を量的データに基づいて作成できる。

人気があって権威がない作家(ジャンル小説家など)、権威があって人気がない作家(ルソーやヴォルテールなど外国の作家)、両方ある作家(ウォルター・スコット、デフォー、フィールディングなど)というように分かれる。

 

次に、情報理論を援用して、語の予測可能性=冗長性を測る。正典は語の組み合わせという観点からはアーカイブよりも多様な言語を使っているが、タイプ―トークン比(Type-Token Ratio)による単語の多様さという観点ではアーカイブのほうが上と、測り方によって異なる結果が出た。

タイプ―トークン比が低い部分を調べると、トラウマが襲ってくる場面、語りの重要な場所、激しさ、口語性といった特徴を持つことがわかる。

一般に話し言葉と書き言葉では書き言葉のほうがタイプ―トークン比が高く使用する単語が多様である。アーカイブのほうがタイプ―トークン比が高いのは、アーカイブのほうが書き言葉的だから。それは会話が少ないのではなく、会話も書き言葉的に書かれているから。言語的保守主義のため。また、小説的でない他のジャンルの要素が入っていると(例えば政治的議論など)タイプ―トークン比は高くなる。

 

ミハイル・バフチンドストエフスキーの作品を題材にポリフォニー(多声的)と異種混淆という概念を説いた。彼の議論ではこの二つは近いものとされていたが、実際には正典はポリフォニー的であり、アーカイブは異種混淆的であり対立している。アーカイブに異種混淆が多いのは、19世紀に小説は純化していったので、小説に他のジャンルが交じることは減っていき、それについていけなかった作品だから忘れられたのではないか。

Loudness in the Novel

今回も同じくパンフレットから7番。

この論文では、小説における声のうるささ(loudness)という概念を取り扱っている。

まず対象の小説コーパスから会話を表す動詞が用いられている文章を抽出し、使われている会話動詞によって文を静か・中立・うるさいの3種類に分類する。たとえば”shout”はうるさい、”said”は中立、”whisper”は静かとなる。

静かな文・中立の文・うるさい文のそれぞれに含まれている確率が高い語を調べると、うるさい文には、”!”, ”―”, ”oh”, ”god”, ”heaven”, ”how”, ”yet”などが多く含まれていたり、中立の文には助動詞が多いといった違いが統計的に現れた。

また、文のうるささは単語の選択だけではなく、構文にも関わってくる。例えば、うるさい文の構文として、動詞の命令形+”me”という形や、”What”, “Why”などを使った感嘆文や反語表現、同じ語の繰り返し、そして説明する語(形容詞)などが少ないといった特徴が見られた。

 

うるささを一文だけではなく小説のプロットにおいて見ることもできる。小説を一定の長さの部分に区切り、それぞれの部分に含まれる文のうるささを計算してグラフにすることにより、小説全体の構造としてうるささがどのように推移しているかがわかる。たとえばドストエフスキー『白痴』を対象にしてみると、盛り上がる部分でうるささが急上昇しており、動詞の使い分けが行われていることがわかる。キャラごとのうるささを測定することもできて、主人公のムイシュキンはうるさくなく、他のキャラクターがうるささを担っているといったことがわかる。小説が持つリズムについても考察することができる。

 

うるささの歴史的変化についての分析。19世紀英語小説のうるささの変化を調べると、時間が経つにつれてうるさい会話動詞が減少し、最も中立な会話動詞である”said”が圧倒的に増えていることがわかる。この現象の解釈は色々考えられるが、その一つとして小説が社会化したからという説明がある。また、うるさい会話動詞を使う代わりに、仮説として、自由間接話法が激しい言葉の役割を担うようになったのではないか。

 

このように、うるささという概念で、文法的な分析、語りの構造的な分析、そして歴史的・文化的な分析も可能である。

 

うるささの分析というのを日本語で真似てみたい。