Towards a Poetics of Strangeness: Experiments in Classifying Language of Technological Novelty
SFは見たことのない奇妙なものを見せてくれるジャンルである。この論文では、SFというジャンルの重要な要素である奇妙さ(strangeness)をコンピューターによって言語のレベルで計量することを試みる。
しかし、SFで用いられる科学用語は時代の進歩によって全然変わってくるので、歴史的に一貫した特徴を考えると固有名詞などでは難しい。
そこで、人間によってSFの文を奇妙なものとそうでないものにタグ付けし、教師あり学習を行った。
SFの奇妙さを分類する上で最も重要な単語は定冠詞「the」で、特定の物とか概念に注目させる機能を持つからだと思われる。
また、”of,” “to,” “in,” “by”などの前置詞も、順序、階層、規模などの名詞間の比較関係を示しSFの奇妙さを構成する。
また、ハイフンは二つの名詞をくっつけて新語を作成するために重要。
他に、”control,” “sun,” “power”などの単語は、それ自体新しいテクノロジーなどは示さないが、その使い方によって奇妙さを生み出す。
総合的に、用いられてる単語からコンピューターによってSFの奇妙さを予測することは可能である。
奇妙さというのは普通から外れているということだから、予測が難しそうではあるが、それが実際は可能であるというお話。