生成式AI掀 「淘數據熱」
據媒體報導,在2000年最鼎盛時期,相片桶(Photobucket)是全球頂級的圖像託管網站,一度擁有7000萬用戶,佔據了美國線上照片市場的近一半市場。
根據分析追蹤機構Similarweb的數據,如今只有約200萬人仍在使用Photobucket。但該公司首席執行官(CEO)倫納德(Ted Leonard)透露,目前正在與多家科技公司進行談判,以授權其130億張照片和視頻,讓科技公司用於訓練生成式人工智慧(AI)大模型,使得這些模型能夠回應文本提示,生成新內容。目前談判的每張照片的價格在5美仙至1美元之間,每條視頻的價格都超過1美元,各個買家所需圖像、視頻的類型都存在差異。
「許多科技企業告訴我們,他們需要更多AI訓練數據。一位潛在買家想要超過10億個視頻,比我們平台擁有的還多。突然之間,我們不再擔心沒生意可做,而是要抓耳撓腮地想,我們去哪弄那麼多數據?」他表示。倫納德以商業機密為由拒絕透露潛在買家的身分,但根據其透露的數據推算,其擁有的數據內容將價值數十億美元。Photobucket的境遇可謂該行業的縮影。除了對人才的競爭外,科技巨頭新一輪競賽還轉向了對AI訓練數據。生成式AI革命可能會給這類企業賦予新生命。但同時,這一競賽背後的數據仍存在一些風險。
最初,谷歌、Meta和OpenAI等科技巨頭使用互聯網上免費的大量數據來訓練生成式AI模型。但開始面臨一系列來自版權持有人的訴訟和監管關注。科技巨頭們也開始悄悄針對一些付費內容進行談判,使得相關隱性交易逐漸火熱起來。據媒體援引知情人士消息,在ChatGPT於2022年底推出後的數月內,Meta、谷歌、亞馬遜和蘋果等科技巨頭都與圖片平台Shutterstock簽訂協定,以使用其數億張圖片、視頻和音樂檔進行AI模型訓練。Shutterstock的首席財務官亞哈斯透露,與大型科技公司的最初交易額在2500萬至5000萬美元,大多數交易規模後來均有所擴大。一些較小的科技公司也加入了這一「淘數據熱」,在過去兩個月中加入談判。
對於上述情況,谷歌、Meta、微軟、蘋果、亞馬遜和OpenAI均拒絕置評。(資料來源:經濟部國際貿易署)