科技部日前宣布對外開放AI語音數據資料集內容,首波將提供「科技大擂台 與AI對話」競賽所使用語音試題資料,內容長度達400小時,除了自行錄製資料,更結合內政部警政署警察廣播電臺,以及教育部國立教育廣播電臺所提供相關語音資料,經由北科大電子工程系副教授廖元甫與背後學生團隊協助精準標記後,再彙整成高品質數據庫公開釋出。
對於有志於AI語音相關服務開發的團體而言,當然是好消息,不需要自己從無到有一步一步蒐集語音內容、辨識、標記、校正,就可以有初步的資料源進行訓練,還是免費的。但這會不會好到不像是真的(too good to be true)?從法律上來看,還真的有可能有問題。
一、由取得來源看語音資料可能涉及的權利
由前述科技部新聞稿的內容來看,本次開放的語音資料,包含有科技部自行錄製的資料、警察廣播電臺、教育廣播電臺的廣播內容,而這些語音的內容還要再加上廖元甫教授及其學生團隊進行精準標記,才成為可以供競賽團隊及未來開放予公眾的語音資料源。
我們可以先來看一下警察廣播電臺、教育廣播電臺的廣播內容,廣播節目的主持人可能是受雇或受聘於廣播電臺,廣播節目的來賓可能領了車馬費、出席費,錄製聲音的工作人員可能是受雇或受聘於廣播電臺,若由「著作權」的角度來看語音資料的問題,至少廣播節目的主持人、來賓被錄製下來的訪談互動的聲音,作為一個以錄音物形式存在的語文著作,著作權應該可以透過「契約」處理好來,直接讓著作財產權歸屬於廣播電臺,從而廣播電臺可以對外授權利用。
至於由廖元甫教授及其學生團隊針對電腦語音辨識的結果,再進行精準校正與標記,這是創作嗎?從法律上來說並不是,因為並沒有投入額外的創作活動,只是針對廣播電臺錄製下來的語音內容,校正其文字使其與語音相互對應,而得作為訓練AI的資料源。因此,可以推測「著作權」大概是本次科技部宣布開放AI語音數據資料集內容的主要評估重點。
二、科技部是否有「完整」權利可以對外授權?又授的是什麼權?
然而,廣播電臺錄製下來的語音資料,只要評估、處理「著作權」就夠了嗎?我們可以先來看2019年3月的這則新聞「IBM 未經授權自 Flickr 下載百萬張人臉照片訓練 AI 人臉辨識」(http://technews.tw/2019/03/13/ibm-didnt-inform-people-when-it-used-their-flickr-photos/),「根據報導指出,針對 IBM 所獲得的 100 萬張照片,雖然攝影師可能獲准拍攝照片當中的人物,但是這些人並不知道自己的照片被用於訓練人臉辨識程式。」這些Flickr的照片是經過整理以創用CC的方式授權,所以,若單純由著作權的角度來觀察,其實IBM並沒有侵害著作權的問題,關鍵在於被拍攝者從未認知到含有其肖像的照片,可能被用於訓練AI的資料,進而可能會發展出對其有利或不利的AI產品或服務。
可能大家會覺得因為照片含有他人的肖像,所以,有肖像權的問題。但廣播電臺的語音資料並不涉及肖像,應該就沒有問題。但是,別忘了,現在的AI早已可以用你的臉、你的聲音,說出你沒說的話,而且,你還發現不了到底「假」在哪裡?有理都說不清了。亦即,當你的聲音被透過適當的方式蒐集、分析之後,要重新合成一個你自己都分辨不出真假的聲音,早就已經不是AI工程師要挑戰的目標了。
因此,我們在思考AI訓練所需大量資料源時,在思考誰擁有資料的權利之前,更應該思考資料的蒐集與利用「應該」考量到哪些權利?如果是你,即令是在公開場合下或同意的情形下被拍攝或錄製下來的肖像或聲音,你真的願意被他人蒐集、利用於AI的各種訓練或應用上嗎?如果有一天,Siri的發音就是你的聲音,你會不會覺得怪怪的?還是覺得很溫馨?