カルチャロミクス E・エイデン、J=B・ミシェル著
ビッグデータでみえる言語文化
「肉体は悲しい、ああ、私は全ての書物を読んだ」と詠じたのは、19世紀の詩人マラルメだった。現在では、グーグルがデジタル化した全世界の書籍を、誰でも検索をかけられる状態に近づきつつある。ヒトが本を読み書きすることで成立してきた人文科学は、マシンが数千万冊の書物を高速で「読む」時代にまだ有効なのか。それともこれは、新しい人文科学の時代の始まりなのか。
本書は、グーグルがデジタル化した、過去、数世紀分の書籍から、各年に発行された本に使われている任意の単語・フレーズの使用頻度をグラフ表示する「グーグル・Nグラム・ビューワー」を開発した二人の若い研究者による問題提起の書である。大量の文献をビッグデータとして計測し、ヒトでは見えなかった社会や文化の動態を研究する新しい学問「カルチャロミクス」(文化解析)を提唱している。
英語の不規則動詞burnの活用はいつからburntではなくburnedが多用され始めたのか。言語学者のものだった言語変化の研究が一新する。歴史上の人物はいつからどのように言及頻度が増えて「有名」になる傾向があるのか。検閲と文化との関係はどのように立証されるのか。大量の文献データを一挙に統計処理できると、数理統計的な「文化の法則」に、歴史社会の動態が貫かれていることが分かり、「文化の物理学」も射程に入る。カルチャロミクスは、その後、ニュースメディアやソーシャルメディアの解析へと拡(ひろ)がり、マーケティングや世論動向の把握、株価予測にも応用が試みられるようになってきた。
本書が明かしているのは、図書館や歴史文献をめぐる基礎的な研究の取り組みから出発して応用的技術が可能になった経緯である。そもそも、スタンフォード大の図書館計画があって現在の巨大企業グーグルがある。ハーバードを舞台に、人文科学の基礎的研究から産業的応用へといたる展開が、着実にスピーディに組み上げられていくさまが鮮やかに描き出されている。
他方、哀(かな)しいかな、データ不足でグーグル・Nグラム・ビューワーに日本語版はない。これでは自国の歴史文化のCTスキャン画像が撮れない。株価や市場予測に役立つとなれば色めき立つが、学問の基礎的な部分から始めて、イノベーションを起こすという発想がこの国にはない。文系学部や人文科学は要らないとか議論しているうちに、これでは世界から取り残されていくばかりだ。
(東京大学教授 石田 英敬)
[日本経済新聞朝刊2016年5月1日付]
ワークスタイルや暮らし・家計管理に役立つノウハウなどをまとめています。
※ NIKKEI STYLE は2023年にリニューアルしました。これまでに公開したコンテンツのほとんどは日経電子版などで引き続きご覧いただけます。