Adobe 自 2023 年以來積極投入人工智慧,推出多項服務,包括 Firefly(AI 媒體生成套件)。
現在,Adobe 因 SlimLM 語言模型的訓練資料來源遭到質疑,面臨集體訴訟。
原告 Elizabeth Lyon(美國奧勒岡州作家)指控 Adobe 使用了 盜版書籍(包含她的著作)作為訓練資料。
著作權侵害
SlimLM 的訓練資料來源為 SlimPajama-627B,而該資料集被指控源自 RedPajama,其中包含爭議性的 Books3(約 191,000 本書)。
若確實包含未經授權的作品,Adobe可能涉及 未經同意的複製與使用,構成著作權侵害。
衍生資料集的責任問題
Lyon 指控 SlimPajama 是 RedPajama 的「衍生副本」,因此仍含有 Books3 的內容。
爭點在於:即使 Adobe聲稱使用的是「開源、去重」資料集,若其基礎來源含有侵權內容,是否仍需承擔法律責任。
集體訴訟趨勢
Apple、Salesforce 也因使用 RedPajama 而遭到類似訴訟。
Anthropic 在 2025 年 9 月同意支付 15 億美元和解金,成為 AI 著作權訴訟的重要轉折點。
AI 訓練資料的透明度
許多公司聲稱使用「開源」或「公共」資料集,但實際上可能包含盜版或未授權作品。
這引發對 資料來源透明化 的要求。
作者權益與補償
作家與出版者認為自己的作品被用於 AI 訓練卻 未獲得同意、署名或補償。
這涉及 知識產權的公平使用 與 創作者經濟權益。
產業風險
訴訟已成為 AI 產業的「常態化風險」。
若法律逐步要求 AI 公司支付授權費或版稅,可能改變 AI 模型的商業模式與成本結構。
這篇文章凸顯了 AI 與著作權衝突的核心問題:
法律層面:衍生資料集是否能免除侵權責任?公司是否需為「間接使用盜版」負責?
倫理層面:AI 公司是否應建立更嚴格的資料來源審查與授權制度?
產業層面:隨著和解金額逐漸高昂,AI 產業可能面臨 版權授權化、成本上升、商業模式重塑 的新局面。