首頁 > 知識分享 > 高科技產業 > 國家文化記憶庫與生成式AI模型合作模式探索

國家文化記憶庫與生成式AI模型合作模式探索

2024/09/03

賴文智律師

一、前言

OpenAI公司在2024年5月推出ChatGPT 4o,可以支援多模態(多種類型資料,例如文字、圖像、音訊等),使用者透過App可以直接透過語音對話,也可以直接提供圖像檔案讓ChatGPT識別,生成式AI的快速發展,確實有種強人工智慧就在不遠的將來的感覺。

上述二張照片內容的識別,是在沒有輸入任何提示的情形下,ChatGPT 4o的生成內容,由於這二張照片資訊相對完整(第二張照片第1點頭盔顏色部分的說明不正確,主要的區分應該在電衣而不是頭盔),所以,ChatGPT明顯展現出來其識別繁體中文字的能力,可以透過背景資訊解讀出來是2022年(民國111年)全國中等學生運動會擊劍比賽,甚至可以透過裝備、動作判斷出來是屬於擊劍中的鈍劍比賽。這已經相當於對於擊劍運動相當了解的民眾的判斷。

對於生成式AI而言,這類多模態的識別能力,可說是讓生成式AI從工作走向生活的重要里程碑。你到陌生的國度旅遊,想要買東西、點餐但看不懂標示,拍張照輸入ChatGPT即可得到翻譯後的資訊;要詢問交通工具怎麼搭,甚至買東西要殺價,都可以透過語音輸出與生成內容以語音輸出,達到雙向溝通的效果。相信這也是多數生成式AI模型未來必然的走向。

二、多模態的生成式AI需要品質更高的訓練資料

要透過何種資料的訓練讓生成式AI達到這樣的能力,不如讓ChatGPT來告訴我們。以下即是ChatGPT 4o的回覆:

要使生成式AI能夠有效辨識照片內容,需要以下幾種訓練資料:

  1. 大規模多樣化圖片數據集:涵蓋不同場景、物體、人群和活動的圖片。圖片應包含不同的光線條件、角度和背景。
  2. 標註數據:每張圖片都需要詳細的標註信息,包括物體名稱、位置、動作描述和場景信息。使用bounding boxes、segmentation masks或關鍵點來精確標註物體的位置和形狀。
  3. 語料數據:提供對圖片內容的文字描述,以便訓練AI生成符合圖片內容的自然語言描述。
  4. 人臉和表情數據集(如需要人臉識別):涵蓋不同年齡、性別、種族和情感狀態的人臉圖片。包含標註每張人臉的情感狀態、身份(如有必要)等信息。
  5. 場景和背景數據集:涵蓋室內外不同場景和背景的圖片,例如街道、房間、自然景觀等。
  6. 行為和動作數據集:涵蓋不同人類和動物行為和動作的圖片或視頻片段。這些數據應標註行為或動作的具體類型。
  7. 多語言文本數據(如需要支持多語言描述):提供多語言的圖片描述和相關標註,確保AI能夠生成和理解多語言內容。
  8. 專業數據集(如特定領域的識別需求):針對醫療、法律、工業等特定領域,提供專業圖片和相關標註信息。
  9. 合成數據:通過數據增強技術(如旋轉、翻轉、裁剪等)生成合成數據,以增加數據多樣性。

上述回覆可以觀察到ChatGPT受簡體中文資訊影響很深,即令是以繁體中文回覆,但仍使用中國相關用語。不過,這並不影響其回覆可以給予我們的幫助,亦即,要訓練多模態的生成式AI,需要「對圖片內容的文字描述」的語料資料、「不同年齡、性別、種族和情感狀態的人臉圖片」(需要標註每張人臉的情感狀態)、「不同場景和背景的圖片」、「不同行為和動作的圖片」(應標註行為或動作的具體類型),很重要的是,不能僅有圖片本身,還需要有適當的標註,而如果要訓練能夠辯識台灣本地相關圖片的生成式AI,即必須要有大量前述高品質的圖像,且經過適當的標註資訊,才能夠完成這項工作。很巧的是,國家文化記憶庫正好有大量經過標註資訊的台灣本地相關圖片,如果可以用於生成式AI多模態的訓練,就是最裡的資料集。

三、國家文化記憶庫與ChatGPT的現況

目前國家文化記憶庫的主要圖像,都會搭配適當的文字描述,以協助公眾理解圖像的背景資訊及內容。上述照片如果沒有文字的描述,我們可能只能判斷出來是著原住民服裝的女性正在對兒童在戶外進行解說。

自國家文化記憶庫下載前述《參美語教室》照片,其檔案名稱為「7551@3311@LINE_ALBUM_0801參美語-阿美族語_230802_25.jpg」,上傳至ChatGPT後,ChatGPT由檔案名稱猜測其為阿美族傳統服飾,而主要的說明內容也跟我們一般對於原住民文化不甚了解的人相似,但我們要了解這已經是目前應該最強大、訓練資料最多的ChatGPT 4o所能達到的效果,多數的生成式AI模型,尤其是開源的AI模型,應該連一般人對這張照片的解讀都做不到。目前TAIDE計畫或是TAME計畫,都還停留在繁體中文「文字」,尚未進行多模態生成式AI的領域。

然而,從新聞中我們也可以了解到訓練台灣本地資料,最大的困難除了經費之外,就是資料量不足。若未來需要訓練台灣本地多模態的生成式AI模型,同樣也會面臨資料量不足的問題。國家文化記憶庫正是屬於圖+文的資料集,即令是ChatGPT,若能夠搭配由照片上傳者所提供的說明內容,則除了以直接確認是阿美族的圖騰或服飾之外,可能可以進一步了解到老師所配帶的飾品是情人袋(檳榔袋),兒童配帶頭飾的意義等,更遑論要訓練台灣本地多模態生成式AI,這類有正確描述的圖+文資料集,絕對可以扮演重要角色。

四、創用CC授權與多模態生成式AI的訓練與應用

(一)創用CC授權範圍並未將AI訓練的重製排除在外

將創用CC資源作為生成式AI訓練的法律議題,已初步於《創用CC授權資源投入AI訓練的法律議題》進行討論,針對訓練本身涉及的「重製」行為,依據創用CC的授權條款,並未禁止此類重製,問題的關鍵通常會出現在若將以創用CC授權的圖片,用於圖片生成的生成式AI模型的訓練,因為生成式AI的模型是將訓練資料以深度學習的方式,抽取其中各種不同面向的關聯性,以數值的方式分散在不同的節點,而不是像過去資料庫時代,將訓練資料作為素材提供服務,更接近於人類的學習及創作產出。因為不是依據某個或某幾個著作進行衍生創作,而是從已習得的技藝(說是關聯性)從新生成,無法判斷其源何而來,是否與訓練資料有重複或類似,進而標示使用到哪一個著作,也就是說,若是生成的結果恰巧與某創用CC相同或類似,完全沒有符合創用CC「姓名標示」運作的機制,因為生成式AI的模式不會也無法去溯源確認用到哪些訓練資料,因為是模型內只有儲存各種參數而已,且各種參數可能是極大量的資料交互影響而來,無法判斷哪一個資料的貢獻為何。

(二)識別型AI與多模態生成式AI的訓練

但前述《創用CC授權資源投入AI訓練的法律議題》文章也提及創用CC授權資源是可以投入識別型AI的訓練,因為識別型AI並不是要生成與訓練資料相似的內容,例如:X光片識別的AI,並不是要生成新的X光片,沒有任何意義,而是輸入X光片,AI可以協助醫師判讀X光片的內容。多模態的生成式AI,像是前述輸入照片請ChatGPT說明照片內容,某程度即為圖像識別功能,關鍵不在於利用訓練照片生成新的照片,而是利用訓練照片及相關標註的文字資訊,讓生成式AI可以具有多模態的識別,擴張生成式AI應用的範疇。

亦即,將創用CC授權資源投入以圖生成文字這類多模態識別的訓練(可以先理解為描述圖像或影音內容的生成式AI訓練),因為其訓練的過程並非讓模型學習如何由圖像產生圖像,而是透過該圖像所對應的描述文字,讓生成式AI模型學習圖像與文字間之關聯性,而後續的利用若限制於理解或描述圖像或影音的內容,則可以避免出現生成的成果會出現先前的訓練圖像資料,可能用於生成圖像這種著作利用行為。因為對於圖像或影音以文字描述,本身並不構成著作的利用行為。

然而,生成式AI多模態的訓練與單純的識別型AI的訓練又有所不同,圖像與文字的組合用於生成式AI模型的訓練時,雖然訓練者是為了訓練圖與文之間的關聯性,但仍然無法排除該生成式AI模型仍然加強了圖像(或文字)本身的關聯性(可以模擬人類認知某種服飾是阿美族的特徵),而會在後續生成圖像時(可以模擬為老師指定當次繪圖的主題是阿美族慶典,學生在沒有直接參考素材時,使用腦海中的印象進行繪製),亦即,多模態生成式AI的訓練無法僅將該模型學習限於「識別」,而是接近人類學習時可能有較廣面向的影響。

(三)照片所含事實資訊不受著作權保護

但如果是屬於攝影著作(照片),而不是美術著作(畫作),因為攝影所拍攝的內容原則上均為實體世界既存的形象,例如:人物、山林、活動、標誌等,屬於事實資訊。依據著作權法第10條之1規定,「依本法取得之著作權,其保護僅及於該著作之表達,而不及於其所表達之思想、程序、製程、系統、操作方法、概念、原理、發現。」前開照片中所含的事實資訊,即屬於一種對於現實世界某段時光的「發現」,為著作權法的立法者在立法時所刻意排除不予保護,攝影者無法透過著作權的保護壟斷事實資訊,只能禁止他人翻拍或將攝影著作另行透過軟體轉製為水彩或油畫,但無法禁止他人參考照片的內容繪製水彩或油畫。文字部分則因生成式AI以LLM(大型語言模型)為基礎,個別標註圖像內容為何的文字對於生成文字的影響極其有限,暫可略去不論。

生成式AI以模擬人類大腦神經網絡的運作方式(即深度學習)作為基礎,在此時會像是人類獨立作畫,而非像過去簡單以Photoshop等繪圖軟體,一鍵即可將照片改為版畫、水彩畫或油畫風格,不應構成攝影著作的侵害行為。亦即,當前述《參美語教室》照片被用於多模態生成式AI的訓練時,無論是人物的衣著或戶外的背景,若被用於強化模型中有關阿美族服飾或台灣特定地區山林樣貌的關聯性,這樣的關聯性之後影響到生成阿美族或台灣特定地區山林背景的圖像時,不應構成著作權侵害,而由創用CC授權的角度來觀察,不構成著作權侵害(無論是不構成著作利用行為或屬著作財產權限制或合理使用)。因生成式AI的特殊性無法依據創用CC進行姓名標示,或無法控制該模型是否被用於營利,或生成式AI生成成果在於追求與原有訓練資料不同這樣的特性,在創用CC仍以尊重著作權法為前提,應不致構成創用CC條款之違反。

四、結語

國家文化記憶庫匯聚超過300萬筆數位影像資料,更重要的是,這些影像資料是還有相對應正確的文字描述,雖然有部分的資料並未採取創用CC授權僅能供線上瀏覽,但採取創用CC授權的圖像+文字的資料,已具有相當的代表性,較一般生成式AI模型在訓練時,抓取網路上正確性顯有疑義的資料,更值得令人期待其訓練成果。而採用創用CC授權的圖像或文字的資料,至少針對訓練階段所涉及的重製行為仍屬授權範圍內,不致讓訓練的單位或個人涉入侵權的民刑事責任,是屬於相對安全的訓練資料。但若要讓創用CC授權資源能合法地使用於生成式AI的訓練,仍然需要處理後續利用的風險,亦即,選擇照片而非畫作等美術著作的創用CC資源作為訓練資料,基於著作權法第10條之1的規範,應可大幅度降低侵權風險。

基於著作權法及創用CC條款的尊重,建議文化部與數位發展部未來共同協力投入資源,由AI訓練資料整理的角度,重新針對國家文化記憶庫所薀含豐富的照片+描述文字,整理出可供生成式AI多模態訓練的資料集,排除非創用CC授權、排除美術著作的圖像,讓有心從事台灣本地化生成式AI模型訓練的單位,能夠直接下載內容豐富、正確又合法的資料集,訓練出更符合台灣民眾需求的生成式AI模型。

請輸入關鍵字