◎賴文智律師
一、前言
生成式AI基礎模型訓練的過程,需要非常大量的訓練資料,其規模遠超過傳統對於資料庫量級的想像,進入一般所稱的巨量資料(Big Data)。由法律的角度觀察,巨量資料通常超過單一業者能夠逐一釐清權利的「數量」,加上資料來源不一、格式不一,每一筆資料所可能涉及的各種權利態樣也不一致,「權利碎片化」成為生成式AI訓練資料面臨的主要問題。對於以生成文字、圖形的AI模型而言,著作權更成為相關業者共同的難題,就現實面而言,幾乎可以說不可能有任何較成熟生成式AI基礎模型,是完全利用不受著作權法保護的資料,或是僅利用已取得合法授權的資料訓練完成。
以TAIDE計畫為例,其並非從零開始訓練基礎的LLM模式,而是使用META公司釋出的LLAMA 2作為基礎,提供繁體中文資料進行訓練,同樣也不可能解決LLAMA 2可能面臨的訓練資料合法性的問題。或許有人認為META公司經營眾多社群網站,可以利用大量使用者自行上傳的資料進行LLM模型的訓練,姑且不論這樣的訓練其實未必合法,即令合法,單純只有社群網站的巨量資料,同樣也不足以訓練出可以商業應用的LLM模型,因為資料來源的同質性高(即適合於社群媒體上發布),可能無法適用於眾多不同的使用場景。因此,幾乎可以斷定生成式AI基礎模型的訓練,不可能透過「逐一取得資料授權」作為著作權議題的解決方案。此時,只有透過著作權法修法或個案透過訴訟由法院來確認是否符合合理使用規範。目前,美國諸多權利人方對生成式AI業者提起的著作權侵權訴訟,即是透過個案來確認是否符合合理使用規範。
事實上,主要採取創用CC授權的國家文化記憶庫,面對像TAIDE或其他政府機關來函詢問有關提供AI訓練授權事宜,管理單位也不可能有完整權利將相關著作授權予他人作為AI訓練。因此,若希望能將國家文化記憶庫中有關創用CC授權資源作為AI訓練及後續應用,也只能透過合理使用的規定來處理。本文即擬以此為主軸進行討論及分析。
二、簡易了解生成式AI模型訓練的過程
若要討論生成式AI模型訓練涉及的著作權議題,必須先對生成式AI模型訓練的方式有初步了解。
圖片來源:https://learn.microsoft.com/zh-tw/training/modules/fundamentals-generative-ai/3-language%20models
從前述微軟公司所提供自然語言模型訓練的示意圖(建議可以把文章整個看完),我們大概可以理解像LLM這類自然語言模型的訓練,並不是要讓電腦「記住」輸入的資料本身,而是將每一筆資料透過編碼器(Encoder)解構為不同標記(例如:每一個英文單字)之間在不同情境關係下的關聯性(上圖英文單字後綴三組數字,可以想像成在龐大類神經網絡中的定位,彼此之間可能存在某些或強或弱的關聯性)。當有一個任務前一段文字是When my dog was時,因為先前輸入的大量訓練資料,自然語言模型各個類神經網絡節點所儲存標記間的各種參數,透過解碼器(Decoder)把接下來在這種情境下關聯性最高的a puppy解譯產生出來。過去手機上的輸入法可能透過前後文關聯性+統計來處理,我們可以把大型語言模型想像成可以在非常長的文句、文章之間建構各種不同情境關聯性的模型。
因此,LLM模型的訓練並不是像「死記硬背」,而比較像是透過模型、校正、測試的流程,讓資料被用一套方法記下來而可以活用,這個方法抽象理解到最極致,可以簡單說是以關聯性為核心。像ChatGPT這種LLM模型在執行chat任務時,是不斷透過各種情境下的關聯性「生成」適合該任務的回應,而不是像從資料庫調取合適的資料或其摘要作為回應。所以,生成式AI在提供服務時,是不需要任何原始訓練資料,就像人類一樣,不是隨身帶著書籍在查詢或回應各種對話。這樣的特質也可能會影響到著作權法合理使用的判斷,所以,必須針對技術面先有基礎的了解。
三、Google全文檢索服務是比較接近的案例
面對新的問題,歷史可以給我們帶來一些啟發,在著作權領域也是一樣。要理解生成式AI的模型訓練,能否使用未經合法授權的資料,我們可以從比較接近的案例來觀察,就是Google全文檢索服務。我們都可以理解,Google不可能在使用者每次鍵入關鍵字時,對於網際網路上所有的資料進行即時的檢索,而Google如何解決這個問題?
技術上Google是預先透過網路爬蟲將網頁資料抓取下來之後,依據一定的機制進行索引(index),刪除原始的網頁資料,並且透過網站root.txt的機制,允許網站經營者不允許Google或其他網路爬蟲抓取特定網頁資料。由於全文搜尋幾乎已成為網際網路龐大資料被使用者接觸的重要方法,因此,雖然Google必然在未經授權的情形下「重製」網路上的資料,但這樣的利用行為被認定為是一種「轉化(transformative)」的使用,使用者並不會在Google全文檢索結果頁面直接接觸到原始、完整的網頁資料(仍然需要連結至原始的網頁),反而透過Google可以讓這些網頁資料更容易為人們所接觸,這也讓全文檢索符合合理使用規範更具正當性。雖然我們現在認為全文檢索是網路生活的日常,但其實這樣的技術開始提供商業服務時,同樣是有相當著作權侵權的爭議。
事實上,Google公司可說是多次挑戰美國著作權法有關合理使用的界限,美國法院在後續Google Book的案件中,也認為Google主動與各圖書館合作掃瞄藏書將電子檔作為書籍檢索服務符合合理使用規範。美國第二巡迴上訴法院認為Google提供服務時並未讓書籍內容可以連續地被閱讀,並不會嚴重影響著作權人或其權利金收入,甚至可以促成書籍被更多人查詢到,進而可能增加書籍的銷售或利用,符合美國著作權法合理使用的規範(但不代表其他國家的司法實務也這樣認為)。美國司法實務過往的判決先例,或許也是讓美國從事AI基礎模型訓練的業者敢於率先投入訓練與商業服務的原因。
四、在我國著作權法下是否有成立合理使用的可能性?
我國著作權法第65條:「Ⅰ著作之合理使用,不構成著作財產權之侵害。Ⅱ著作之利用是否合於第四十四條至第六十三條所定之合理範圍或其他合理使用之情形,應審酌一切情狀,尤應注意下列事項,以為判斷之基準:一、利用之目的及性質,包括係為商業目的或非營利教育目的。二、著作之性質。三、所利用之質量及其在整個著作所占之比例。四、利用結果對著作潛在市場與現在價值之影響。…」
關於生成式AI訓練資料是否涉及著作利用(重製),以及是否可能符合合理使用的問題,智慧財產局電子郵件1111212函釋,「……所詢如以Midjourney之AI藝術生成工具以人工智慧串接網路資源,以演算法利用網路上之該等著作進行學習,可能會涉及「重製」他人著作之行為,除有符合著作權法(下稱本法)第44條至第65條合理使用規定之情形外,應取得著作財產權人之同意或授權,始得為之。……至於AI藝術生成工具在學習後的產出之成果,如您來信所言,依著作權法第10條之1規定,著作權法所保護者為觀念、構想之「表達方式」(例如畫作本身),不及於觀念、構想本身(例如:畫風、風格等),因此如果AI產出結果僅是以特定藝術家的「風格」表現,與原作仍有不同,尚不涉及著作權之侵害。」簡言之,智慧局目前並沒有像日本文化廳[1]針對生成式AI的訓練階段(AI開発・学習段階),認定應適用日本著作權法第30條之4[2]規定,而符合著作財產權限制,不構成侵權。但對於生成式AI的商業應用,其實也還在未定之天。
然而,只討論訓練階段,不討論後續商業服務,等於沒有解決問題。創用CC作為網路使用者常用於網路發表著作之授權模式,且國家文化記憶庫也以創用CC授權為原則對外徵集著作,很適合作為AI訓練的資料蒐集來源。以下本文即嘗試依據我國著作權法第65條第2項的四款基準,以自然語言模型(即以文字類型訓練,用途也是生成文字類型為主)為例,檢視生成式AI服務經營者,利用網路上可以公開取得的創用CC資源進行訓練,並提供商用服務,是否符合合理使用規範進行分析。
- 利用之目的及性質
生成式AI所需的訓練素材,廠商利用的目的在於使模型透過大量的資料,建立不同標記(如英文單字)彼此間在各種情境下的關聯性,或是經人工標示之後,作為校正或測試模型生成的回答是否符合需求或其正確性,而不是直接將之用於當作創作素材,作為後續衍生其他成果使用。這樣的利用可以讓既有的著作產生過去從未有的新應用(即過去創作幾乎以人類為主,但生成式AI具有扮演生成AIGC前所未有的能力)。雖然本款基準亦提及「商業目的或非營利教育目的」,但由著作權法第1條有關「調和社會公共利益,促進國家文化發展」規定的角度,這類對於社會公共利益、國家文化發展有突破性發展的新利用型態,其影響不下於網際網路在過去三十年的衝擊,技術固然可能有其好與不好的兩面性,但就著作權法本款基準的評估而言,應該由其一般、正常的應用來觀察,筆者認為整體而言是對社會公共利益、國家文化發展有利的,因此,從訓練到提供商業服務,認定是屬於正向評價比較合宜。
- 著作之性質
創用CC授權的著作,若針對生成式AI的訓練階段,筆者過去曾在《創用CC授權資源投入AI訓練的法律議題》、《國家文化記憶庫與生成式AI模型合作模式探索》二篇文章中討論,基本上,創用CC的授權並未排除為了AI訓練的「重製」,所以,可以說取用創用CC的著作作為生成式AI訓練,至少就訓練階段相較於其他網路上的著作來得安全。但同樣會面臨到後續商業利用的問題,因為像是ChatGPT等生成式AI因為是以透過大量資料解構、重組的「關聯性」為其生成基礎,而不是先檢選合宜的內容再進行改作或衍生,使得其生成的成果通常無法具體標示來源。同樣的,其實生成的成果也未必會構成著作權的侵害(須視是否與先前既存著作近似)。個人認為創用CC授權的著作,比較像是發表於網路上的著作,沒有特別去排除Google的檢索,但生成式AI服務也不像全文檢索服務幾乎已成為網際網路運作的必然需求,所以,針對此項基準,筆者個人認為應該是中性但偏正向一些的評價。
- 所利用之質量及其在整個著作所占之比例
AI訓練通常用到完整著作(即令經過部分破壞,就著作權法而言,仍為幾乎全部的著作),就此點而言,針對一般著作而言,應該是負面評價。然而,針對創用CC授權的著作,因為創用CC授權並未排除AI訓練的重製,因此,應該要由後續生成式AI提供服務時來認定。因為生成式AI不是資料庫服務,也不是應用特定素材進行衍生創作,混雜大量的訓練資料,甚至是校正、測試資料也可能產生影響,一般來說不會直接使用某一著作大量比例的內容,若是使用者故意用prompt引導,則是使用者個人濫用、侵權的問題。筆者認為針對創用CC授權的著作而言,生成式AI廠商在「所利用之質量及其在整個著作所占之比例」這項基準,反而有機會取得相當正向的評價。
- 利用結果對著作潛在市場與現在價值之影響
這一點是筆者個人覺得最困難的。授權他人將自己的著作作為生成式AI服務使用,應該是可能有潛在市場。但需要區分情形來判斷。以先前在《數位館藏如何在可控的風險下導入生成式AI服務 —以國家文化記憶庫為例》文章中所介紹的RAG模式為例,若將創用CC授權的著作作為像後台檢索資料庫來使用,當然是有一定授權市場存在,若著作權人所選擇的創用CC授權是非營利,當然就不能作為商業使用。但如果是像ChatGPT這種服務,其背後的大型語言模型(LLM)所需的訓練資料大到一定量級以上,個別著作授權市場幾乎不存在,因為訓練LLM的公司的資源,不可能逐一取得授權,而廣泛的補償機制雖然可行,但需要透過立法來處理,不是合理使用制度所應扮演的角色。因此,就此一判斷基準而言,未必是負向評價,個人認為以中性評價為宜。
綜上分析,筆者個人認為在以文字為主要訓練及生成服務的生成式AI,廠商取用網路上創用CC授權的著作作為訓練資料,即令其後續提供商用服務,依據我國著作權法,亦有相當大的機會構成合理使用,相較於其他授權不明確的著作而言,其實數發部、文化部等可以投入資源合作,設法將網路上創用CC授權的著作(不限於國家文化記憶庫)整理為可供AI訓練的資料集,讓有訓練資料需求的單位,自行依據著作權法合理使用的規範進行評估,在可控的風險下擴大訓練資料的來源,尤其是像繁體中文這類缺少訓練資料的環境,單純依賴授權是不太可能徵集到多樣化且足夠的訓練資料。
五、結語
生成式AI是否會像網路資料的全文檢索服務一樣,成為AI時代民眾生活及工作不可或缺的服務,可能還是會跟網際網路發展早期一樣,需要經過時間的考驗,而且未必每一種生成式AI的服務都會有這種必要性。但現在生成式AI的服務提供者,其實已經正在面臨著作權的侵權風險。台灣與日本類似,整體社會對於AI的接受度是比較高的,但著作權人也同樣感受到生成式AI非常大的壓力,對於未經過其授權即使用其受保護的著作作為AI訓練(且必然後續會推出服務),已表達高度的關切,這也使得智慧局在美國與生成式AI相關的案例有比較明確的判決結果之前,應該不會有積極的明確指引。
國家文化記憶庫蒐集大量的創用CC授權著作,是筆者認為有機會作為台灣生成式AI服務提供者作為訓練資料的資料集(但還需要整理),因此,本文嘗試由著作權法第65條第2項四款基準,針對以創用CC授權著作作為自然語言類型的生成式AI訓練(包括像是TAIDE計畫的微調)及後續各種生成服務提供(包括以商業方式提供),進行合理使用的個案分析。就結論而言,針對創用CC授權著作及生成式AI技術上的的特殊性,筆者個人在作為AI訓練及後續商業利用是否符合合理使用規範持相當肯定的見解,也希望本文能有助於國內生成式AI業者或政府機關在尋覓合宜的訓練資料時,能夠優先考量將網路上創用CC授權的著作整理為適合AI訓練的資料集,在逐一取得著作權人授權之外,另闢一條或許可行的道路。
[1] 該項說明的簡報資料:https://www.bunka.go.jp/seisaku/bunkashingikai/chosakuken/pdf/94057901_01.pdf(日文版);https://www.bunka.go.jp/english/policy/copyright/pdf/94055801_01.pdf(英文版)
[2] 日本著作權法第30條之4相關規定摘譯如下:「著作物在下列情形或其他非以自己或他人享受該著作物中思想或感情表達為目的之情形下,得在必要範圍內不限使用方式為利用。但依該著作物之種類、用途及其利用方式可能對著作權人不當地造成損害者,不在此限:…二、供資訊分析(係指從多數著作物或其他大量資訊中,擷取涉及該資訊構成之語言、聲音、影像或其他要素之資訊,進行比較、分類或其他解析之行為…)之用者。三、除前二款情形外,供不涉及人之感知而利用於電子計算機資訊處理過程或其他利用者。…」