著名作家グループがMetaとOpenAIを集団訴訟、20万冊近い書籍の著作権侵害を主張

作家グループらは、自身の著作物をAIシステムのトレーニングに使用されないよう、阻止する取り組みを強化している。

テクノロジー AI
著名作家グループがMetaとOpenAIを集団訴訟、20万冊近い書籍の著作権侵害を主張
Image by Mohamed Hassan from Pixabay 著名作家グループがMetaとOpenAIを集団訴訟、20万冊近い書籍の著作権侵害を主張

Image byMohamed HassanfromPixabay

ピューリッツァー賞受賞者のマイケル・シェイボン氏をはじめとする著名作家グループが、Meta Platforms(元Facebook)を相手取り、米サンフランシスコ連邦裁判所で集団訴訟を起こしたと報じられた。

AI2.NEWSによると、作家グループは、MetaがWeb上で大量の書籍を収集し、同社のAIソフトウェア「LLama」を訓練するために自分たちの著作物を悪用したと非難。訴状によると、Metaは「LLama」の学習に使用したデータセットの出所を開示しておらず、大規模な言語モデル用のデータセットとして公開している「The Pile」の「Books3」セクションから引用しものだとしながらも、その内容についてはそれ以上の説明がなされていないという。

訴状には、「『Books3』はWebサイト『Bibliotik』(悪名高いシャドーライブラリー)から入手した書籍で構成されており、『Books3』のデータセットを構築した人物は、“『Books3』は『Bibliotik』そのもので、『Bibliotik』には19万6,640冊の書籍が含まれている”と公の声明で認めている」と記されている。

The Hollywood Reporterによると、9月8日(金)にはChatGPTを公開したOpenAIも、「無許可で違法」な書籍収集により巨額の商業的利益を得ているとして、同様の集団訴訟を起こされた。原告は、著作権で保護された作品を基に学習させたAIシステムを破棄するよう、裁判所命令を求めている。両社はポール・トレンブレイ氏をはじめとする作家グループほか、様々なアーティストからの訴訟にも直面している。

その訴状では、「AIシステムが作家の著作物を読み込まされた証拠として、ChatGPTが小説のテーマや要約など詳細な分析を生成している」ことを指摘し、「それは、GPTの基礎となるモデルが作家の作品を使って訓練された場合にのみ可能」だと主張している。また、トレンブレイ氏は、「ChatGPTが特定の作家の文体で文章を生成するよう促された場合、GPTはトレーニングデータセット内にある、その作家の作品の分析から学んだパターンに基づいてコンテンツを生成する。大規模な言語モデルは、著作権で保護された素材から抽出された情報なしには動作しないため、ChatGPTが生成する回答は“それ自体が侵害的な二次的著作物”である」と訴えている。

両作家グループは、MetaとOpenAIがAIシステムの学習に使用するデータセットを、「インターネット上のテキストデータをかき集めることで構築した」と強調。訴状は、「2018年6月にOpenAIは、GPT-1(大規模言語モデルの最初のイテレーション)にBookCorpus(約11,000冊の未発表書籍のテキストで構成されるデータセット)にある7,000以上の小説コレクションを与えたことを明かした」と述べている。

BookCorpus自体が物議を醸しているデータセットであり、その目的は自費出版の小説を支援するWebサイト「Smashwords」に掲載された作品をコピーし、GPTのような言語モデルをトレーニングすることだとされている。訴状には、「これらの小説は大部分が著作権で保護されているにもかかわらず、著者の同意もクレジットも補償もなく、BookCorpusのデータセットにコピーされた」と記載されている。

MetaとOpenAIは作家グループの他にも、女優でコメディエンヌのサラ・シルヴァーマンを代表に据えた一団からも訴訟を起こされており、今後も類似した訴えが後を絶たないのではないかと予想されている。

《Hollywood》
Hollywood

Hollywood

ロサンゼルスに11年在住していた海外エンタメ翻訳家/ライター。海外ドラマと洋画が大好き。趣味は海外旅行と料理、読書とカメラ。

編集部おすすめの記事