デジタル・ヒューマニティーズの講演が面白かったのでまとめる(追記あり)
デジタル・ヒューマニティーズ(digital humanities)とは、人文科学に対しコンピュータを積極的に応用すること。歴史、哲学、文学、宗教学や社会学の研究において、テキスト分析技術や統計処理、地理情報システム、シミュレーション技術を適用し、新しいアプローチを見出す方法論だ。最近だと「AIが書いたハリポタ」「シェイクスピアの”中の人”は何人?」が有名やね。
講演は秋草俊一郎さんの「文学とコンピュータが出会うとき」というテーマだ(訳すのは「私」ブログ で知った)。文学におけるデジタル・ヒューマニティーズの最新事例や、面白いアプローチをしている研究者が、つぎつぎと飛び出してくる。特に、「本を読まずに文学する方法」や、「統計分析から得られたベストセラーの法則」、「文体を決めるのは時代やジェンダー」が興味深いトピックだった。1時間30分が一瞬に感じるくらい、めちゃめちゃ面白かったので、ここにまとめる(記事化は許可をいただいてます)。
ポイントは、文学を「読む」ほうに主眼をおいているところ。「読む」のはヒトの仕事だろ? なんて思ってると、カルチャーショックを受けるだろう。
まずは、「本を読まずに文学する方法」。フランコ・モレッティ『遠読』を中心に、世界文学への挑戦ともいえる「新しい読み方」が紹介される。それは、「いかに読まないか」を追求する読み方である。
つまりこうだ。いわゆる正典(カノン)を精読することから生じる文学には限界があるという主張だ。崇め奉られている「世界文学」といっても、要するに欧米という地域を中心に、文を生産・消費する商業システムで生き残った作品群にすぎぬ。そしてその量もハンパではなく、原典を「精読(close reading)」していてはそれだけで一生終わる。
だから、「精読」の対義語として「遠読(distant reading)」が提唱される。要素だけを抽出して読んだり、原典ではなく翻訳を通じて読むのもあり。コンピュータや統計手法を用いたデータ解析を行い、文学を自然科学や社会学のモデルでとらえ直すのだ。これにより、テクスト自体が消えてしまってもいい。「テクストをいかに読めばいいかは分かっている、さあ、いかにテクストを読まないか学ぼうではないか」と煽ってくる。
わたしのレビューは、[本を読まずに文学する『遠読』]にまとめたが、この講義では「シャーロック・ホームズが生き残った理由」や「ハムレットのネットワーク相関図」、さらに世界文学空間の歴史的生成と支配構造を解析したパスカル・カザノヴァ『世界文学空間』が紹介される。究極の支配は言語(≒思考・思想)の支配だという考えに立つと、それに抗うための『遠読』という捉え方をしても面白い。
次に、「統計分析から得られたベストセラーの法則」として、マシュー・ジョッカーズ『ベストセラーコード』が紹介される。ある本がベストセラーになるかを判断するためのアルゴリズムを開発する話だ。2800種以上の小説の特徴(文体、プロット、テーマetc)をインプットとし、膨大な小説を機械学習させることで、ベストセラーになる小説を(そうなる前に)予測可能とするのだ。
面白かったのは、プロットラインのグラフ。ストーリーにおける喜怒哀楽をプラス、マイナスに分けて、小説の各場面で、プラスの方向、マイナスの方向にどれぐらい振られているかを視覚化する試みだ。『ダ・ヴィンチ・コード』と『フィフティ・シェイズ・オブ・グレイ』のそれぞれの解析結果を重ねると、プロットラインの起伏がいかに似ているかに目を奪われる。昔から「三幕構成」といわれるが、読者の感情を緻密にコントロールすることが売れることの秘密なのかもしれぬ。
そして、「文体を決めるのは時代やジェンダー」については、マシュー・ジョッカーズ『マクロアナリシス』が紹介される。これは、「文体は何によって決まるか?(作家、時代、国、ジェンダーetc...)」を計量文献学的にアプローチしたものだ。
コンピュータを使ったテクスト分析(テキストマイニング)をすることで、「文学作品を読む」ことから離れたところから新たな発見を得ることができる。19世紀英国の小説を読み込ませ、「教養小説」「ゴシック小説」などのジャンルを自動分類させたり、使用語句におけるジェンダーの差異があるかの仮説を検証する。さらには文章からジェンダーを当てるといった試みがなされる。結論からすると、文体に影響を与えるのは、「作家」「時代」「ジェンダー」が大きい一方、「国」「ジャンル」は低いらしい。
イメージとしては、GoogleのコンコルダンスのNgram Viewerが近いかも。これまでに出版された全書籍のおよそ4%にあたる500万点以上の書籍データから約5000億もの語句を追跡することで、時系列に観た言葉の使用頻度の推移を可視化する仕組みだ。この横軸(時間)に相当するものをあれこれ変えることで、新しい読み方ができそう(もはや、「読み」ですらないのだが)。
こうした紹介のなかで、面白い学会の変化を知った。それは、「文学との違和感」だという。昔は、文学をするということは、一人で作品を読み、一人で論文を書くやり方だった。しかし、今では一人ではなく、「チーム」になっているという。つまり、方向性を考えデータを解釈をする文学者(統計学者?)と、その方向性をコードで実装しデータ化するエンジニアで構成されている。学会の発表者も、昔は一人だったのが、今は一人が発表し、技術的な質疑にはエンジニア(チーム)が答える風景になっているという。「文学は一人でするもの」ではなくなっているようだ。
以上、3つのトピックスを紹介したが、他にも興味深い話が大量にある。わずか165行のコードと地名の外部ファイルを元に生成された小説『ワールド・クロック』の話や、計量文献学として村上征勝『シェークスピアは誰ですか?』やベン・ブラッド『ナボコフの好きな色は藤色』(Ben Blatt ”Nabokov’s Favorite Word Is Mauve”)、「同じ雑誌・同じ号に載った詩人=強い相関」という判断で文学世界のコミュニティのネットワーク図を構築するホイト・ロング『霧と鉄』の研究、何がハイク(≠俳句)かを大量データ分析によりパターン認識させる試みなど、どれも楽しそうな遊びばかりなり。
もちろん、デジタル・ヒューマニティーズについて、批判もあるという。ビックデータ解析といういわゆる流行に乗って、教授のポストやテニュア(終身雇用資格)、研究資金を確保するための方便なのではという批判や、単なるデータの寄せ集めと「知」の混同をするのではないかという懸念などだ。
講演を聴講して良かったのは、わたしが抱いている疑問、メタ・デジタル・ヒューマニティーズの可能性についてもヒントが得られたことだ。あるデジタル・ヒューマニティーズの成果をAIに読み取らせ、別の方向性を探る方法だ。
たとえば、古典文学をAIに食わせ、コピーされた作家性から「古典の新作」を著す試みがある。スタニスワフ・レム『ビット文学の歴史』では、ドストエフスキー・シミュレータからドストの新作が書かれ、それを読んだAIが評論を書き、さらにその評論を別のAIが読み討論する世界が描かれている。そんな可能性を質問したところ、レムの『一分間』に想を得て、『ワールド・クロック』の小説を書くコードのアイデアが生まれたのだというお返事をいただいた(おそらく『主の変容病院・挑発』所収の「人類の一分間」のことだと思う、ぜひ読んでみたい)。デジタル・ヒューマニティーズの可能性は、SFにありそうだね。
何千年も営々と続けられてきた、作品を創造する、それを受け取る行為の根底に、何か無意識の構造があって、それを上手くすくいとり、可視化することで、「人間とは何か」に迫る。そのためのアプローチとして、デジタル・ヒューマニティーズは、これからもっと面白くなっていきそうだ。
最後に。秋草さん、たいへん面白くためになる講演をありがとうございました。おかげで読みたい本がさらに積み上がりそうです。
--------------------------
2018/01/17追記
--------------------------
有益な情報をいただいたので、以下に追記する。読書猿さんを始めとしたtwitterの皆さま、BLOGOSでコメントいただいた皆さま、ありがとうございます。特に読書猿さん、ちょっと聞いただけでこの物量をサクっと返してくるこの凄さ。むしろ読書猿さんを講師に、このお題でお話を伺いたい......
■デジタル・ヒューマニティーズにまつわるtweet
たとえば、膨大なテキストデータを使った「人間が書いたもの」についての間テクスト性分析の実装化と、膨大過ぎて読んでられない遺伝情報の「テキスト」マイニング、特に生物種を横断する共通性と多様性の研究の類比とか。
— 読書猿『問題解決大全』4刷、『アイデア大全』8刷 (@kurubushi_rm) 2018年1月14日
遺伝情報分析からテキストマイニング、内容分析あたりまでは、既に陸続きな感じがするので、文芸批評あたりにもガシガシ乗り込んでいってもらいたいですね。
— 読書猿『問題解決大全』4刷、『アイデア大全』8刷 (@kurubushi_rm) 2018年1月14日
例えば、まだまだ端緒的だけど、こんなのとか。https://t.co/nMNWWOTHPI
公式ページによると
— 読書猿『問題解決大全』4刷、『アイデア大全』8刷 (@kurubushi_rm) 2018年1月14日
「情報知識学会誌はすべての号の論文の本文がWebを通して無料で閲覧可能です。」だそうです。素晴らしい。https://t.co/aAhBM5Ik49
Vol. 16 (2006)以降は J-STAGEに、それ以前は公式Webサイトからリンクがあるようですね。
Perlとバイオ・インフォマティクス関連では
— 読書猿『問題解決大全』4刷、『アイデア大全』8刷 (@kurubushi_rm) 2018年1月14日
ここのプログラミングの項(BioPerlというものもあるそうです)やhttps://t.co/iCAKtvlnk3
とかhttps://t.co/xgZJyOSenY
とかhttps://t.co/xgZJyOSenY
■情報知識学会
■マシュー・ジョッカーズについて Matthew Jockers(Google Scholar) Text Analysis with R for Students of Literature
(読書猿さん、yuekichiさん、たくあんさん、ありがとうございます)
■レンブラントの絵をディープラーニングさせ、レンブラントの新作を描く
クローズアップ現代「進化する人工知能 ついに芸術まで!?」
レンブラントの絵をディープラーニングさせて、その技巧やモチーフを抽出し、「レンブラントの新作」をAIに描かせる試み
http://www.nhk.or.jp/gendai/articles/3837/1.html
(BLOGOSコメント 大久保陣太さん、ありがとうございます)
■AIが音楽にスコアを付けて、それに基づいてレコード会社がデビューを決めている
すでに米国では、AIが音楽にスコアを付けて、レコード会社がそれに基づいてデビューを決めている。
結局、人間も過去の経験で 「売れそうな曲のパターン」 を判別している。
それなら、AIの方がずっと上手く判別できる。
次のステップはAIによる作詞・作曲。
5年後くらいには、随分変わっているかも。
(BLOGOSコメント SUZUKIさん、ありがとうございます)
| 固定リンク
コメント