98万冊の知がテキストに:ハーバード×Googleが示す、書物の未来

1800年代の古典から20世紀初頭の文献まで、98万3000冊、3億8600万ページに及ぶ書籍が、ついにデータとして解き放たれました。ハーバード大学ロースクール図書館が公開した巨大テキストデータセット「Institutional Books」は、学術研究の新たな扉を開くと同時に、文化遺産とAIの接続点を象徴しています。

Institutional Booksとは何か?

2025年にハーバード大学ロースクール図書館が公開した「Institutional Books」は、Googleブックスのスキャンデータを活用し、書籍のテキストを抽出・整形した学術用データセットです。
特徴は以下の通り。

  • 書籍数:983,000冊
  • 総ページ数:約3億8600万ページ
  • 言語数:254言語(英語が43%、次いでドイツ語、フランス語など)
  • 時代:主に1800〜1900年代の書籍
  • 分野:文学(24%)、法律(13%)、哲学・宗教(12%)、科学(11%)など

OCR処理されたテキストは、機械学習や自然言語処理の研究用途に最適化されており、非営利目的での使用が可能です。

なぜこのプロジェクトは重要か?

  • 学術的インフラの構築

このプロジェクトは、既存の学術研究における「一次資料のデジタル化」という課題に直接応えています。歴史的な文献の構造化されたテキスト化は、デジタル人文学、法学、言語学、思想史など多様な分野の研究を促進します。

  • 公共知とAIの接続点

Googleが保有する膨大な書籍データが、大学機関の手で整理され、非営利で公開されるというスキームは、「公共知としてのAI活用」における新たなモデルとなる可能性を秘めています。

デジタル化が照らす「新しい発見」

プロジェクトでは、OCR処理による言語判定の見直しなども行われ、「ラテン語と分類されていた書籍が実はフランス語との混合であった」などの知見も得られました。
こうした例は、機械処理と人文学的知識が補完し合うことで、書物の再解釈が進む可能性を示唆しています。

課題と未来

  • 著作権の壁

Googleブックスの資料を活用しているとはいえ、近代以降の著作物や翻訳作品では著作権の問題が浮上する可能性があります。今回のデータセットは非営利に限定されている点にその配慮が見られます。

  • データの偏りと西洋中心主義

言語分布を見ると、英独仏伊など西欧語が中心です。今後はアジア・アフリカの文献や植民地時代の資料など、より多様な知を取り込むことが求められます。

書物の未来をどう読むか?

Institutional Booksの登場は、紙の書籍が「テキストとしての生命」を得る瞬間です。
AIが物語を理解し、法解釈を学び、詩を読む時代において、書籍という文化遺産がどのように継承され、拡張されるべきか。これは、単なる技術の話ではなく、人文学の未来を問う問いでもあります。

このデータセットをどう活用するかは、私たちの想像力にかかっています。人類の知の遺産がデジタルの海に放たれた今、研究者だけでなく、開発者、教育者、そして読者自身が、次の章を書き始める時なのです。