最近、The New York TimesはMetaの幹部と弁護士が「訴訟リスクをふまえてでも著作権保護コンテンツをAIトレーニングに使用することを検討していた」ことを報じました。この報道は、AIのトレーニングデータに対する需要がどれほど膨大であり、またその入手がいかに倫理的・法的な問題をはらんでいるかを浮き彫りにしています。
AIモデルのトレーニングには膨大なデータが必要です。例えば、OpenAIのGPT-3は2007年以降に収集されたウェブページのテキストや書籍のスキャン、SNSの書き込みなど、3兆以上のトークンを使用してトレーニングされました。このようにして集められたデータは、AIの性能向上に不可欠なものです。しかし、高品質なデータの枯渇が予測されており、企業はますます過激なデータ収集手段に頼るようになっています。
The New York Timesの記事によれば、Metaの生成AI担当ヴァイスプレジデントのアフマド・アル=ダーレ氏は、もっとデータがなければOpenAIに追いつけないという焦りから、著作権で保護されたコンテンツを無断で使用することも検討していました。例えば、新刊1冊につき一律でライセンス料を支払う案や、大手出版社の買収を検討するなど、さまざまな方法でデータを集めることが話し合われました。
また、アフリカの業者を雇って著作権で保護された作品を無断で要約するなどの方法も議論され、「訴訟リスクがあってもさらに多くの作品を吸い上げるべき」という意見も出ました。これに対して、ある弁護士は「アーティストから知的財産権を奪うのはいかがなものか」と倫理的な懸念を示しましたが、重い沈黙が流れるのみだったと報じられています。
このような状況を受けて、私たちとしては、知的財産権の保護とAI開発の進展とのバランスをどのように取るべきかについて、深く考える必要があります。著作権保護コンテンツの無断使用は、クリエイターの権利を侵害し、彼らの創作意欲を削ぐ可能性があります。一方で、AI技術の進展は社会全体に多大な利益をもたらす可能性があるため、そのためのデータ収集も重要です。
このジレンマに対処するためには、法的な枠組みの見直しや新たなルールの制定が必要です。例えば、著作権者に適切な報酬を支払いながらAIのトレーニングデータとして使用するためのライセンス制度の整備や、データ収集の透明性を確保するためのガイドラインの策定などが考えられます。
結論として、AI開発におけるデータ収集の問題は、今後ますます重要性を増すテーマです。私たちとしては、法的視点からこの問題に対する解決策を模索し、健全なAI技術の発展に寄与していきたいと考えています。