【摘要】人工智能大模型產(chǎn)業(yè)發(fā)展的三要素為算法、算力與數(shù)據(jù),其中訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)的質(zhì)量直接決定了人工智能大模型的能力。中文數(shù)據(jù)語(yǔ)料總量相較英文數(shù)據(jù)語(yǔ)料嚴(yán)重不足,同時(shí)存在數(shù)據(jù)采集行為違法風(fēng)險(xiǎn)較高、公共數(shù)據(jù)開放利用不足、線下結(jié)構(gòu)化數(shù)據(jù)版權(quán)制度不協(xié)調(diào)、商業(yè)采購(gòu)與合作數(shù)據(jù)無(wú)法確定數(shù)據(jù)權(quán)屬等障礙,其已成為制約人工智能發(fā)展的制度瓶頸。發(fā)展我國(guó)人工智能大模型產(chǎn)業(yè)可通過(guò)司法判例明確網(wǎng)絡(luò)數(shù)據(jù)來(lái)源合法性認(rèn)定條件,協(xié)調(diào)版權(quán)規(guī)則確定線下數(shù)據(jù)使用合理性制度邊界,構(gòu)建開放機(jī)制滿足公共數(shù)據(jù)參與語(yǔ)料庫(kù)建設(shè)需求,協(xié)同促進(jìn)跨領(lǐng)域數(shù)據(jù)流通交易規(guī)則建立供給激勵(lì),多方破除制度障礙以應(yīng)對(duì)產(chǎn)業(yè)發(fā)展需求。
【關(guān)鍵詞】人工智能大模型 訓(xùn)練數(shù)據(jù) 語(yǔ)料庫(kù)建設(shè) 版權(quán)制度 公共數(shù)據(jù)
【中圖分類號(hào)】TP18 【文獻(xiàn)標(biāo)識(shí)碼】A
【DOI】10.16619/j.cnki.rmltxsqy.2024.13.006
【作者簡(jiǎn)介】張凌寒,中國(guó)政法大學(xué)數(shù)據(jù)法治研究院教授、博導(dǎo),聯(lián)合國(guó)人工智能高層顧問(wèn)機(jī)構(gòu)(UN High-Level Advisory Body on AI)專家,《人工智能法(學(xué)者建議稿)》起草專家組牽頭專家。研究方向?yàn)槊裆谭ā?shù)據(jù)法、人工智能(算法)、平臺(tái)治理等。主要著作有《權(quán)力之治:人工智能時(shí)代的算法規(guī)制研究》等。
人工智能是新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動(dòng)力量,將對(duì)全球經(jīng)濟(jì)社會(huì)發(fā)展和人類文明進(jìn)步產(chǎn)生深遠(yuǎn)影響。中國(guó)高度重視人工智能發(fā)展,積極推動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和實(shí)體經(jīng)濟(jì)深度融合,培育壯大智能產(chǎn)業(yè),加快發(fā)展新質(zhì)生產(chǎn)力,為高質(zhì)量發(fā)展提供新動(dòng)能。在人工智能產(chǎn)業(yè)發(fā)展的諸多要素中,訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)的規(guī)模和多樣性是技術(shù)進(jìn)步的關(guān)鍵因素。我國(guó)訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)的建設(shè)面臨一些制度不協(xié)調(diào),制約了人工智能技術(shù)的發(fā)展。當(dāng)下迫切需要理清語(yǔ)料庫(kù)建設(shè)存在的障礙,明晰人工智能訓(xùn)練數(shù)據(jù)壁壘與低質(zhì)成因,通過(guò)分析人工智能大模型產(chǎn)業(yè)訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)建設(shè)需求,提出訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)制度協(xié)調(diào)與規(guī)則應(yīng)對(duì)的解決方案。
訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)是人工智能產(chǎn)業(yè)發(fā)展的重要因素
語(yǔ)料庫(kù)的訓(xùn)練數(shù)據(jù)規(guī)模是大模型能力涌現(xiàn)的基礎(chǔ)。人工智能大模型的能力飛躍得益于涌現(xiàn)效應(yīng)。涌現(xiàn)效應(yīng)標(biāo)志著人工智能大模型的性能產(chǎn)生飛躍,能力“涌現(xiàn)”就是指“在小模型中不存在,而在大模型中能夠展現(xiàn)出的能力”。[1]大模型的整體性能和行為會(huì)由于“涌現(xiàn)”出現(xiàn)質(zhì)的飛躍,且這種飛躍無(wú)法僅從系統(tǒng)的組成部分來(lái)預(yù)測(cè)或解釋。以GPT系列模型為例,作為語(yǔ)言模型,開發(fā)者在初期僅訓(xùn)練其處理一般的語(yǔ)言任務(wù),但當(dāng)?shù)紾PT-3時(shí),語(yǔ)言模型開始表現(xiàn)出成功進(jìn)行兩位數(shù)乘法的能力,即使開發(fā)者并未對(duì)其進(jìn)行專門的數(shù)學(xué)運(yùn)算訓(xùn)練。[2]
訓(xùn)練數(shù)據(jù)體量的增加是人工智能大模型出現(xiàn)涌現(xiàn)效應(yīng)的基礎(chǔ)。“涌現(xiàn)”只存在于訓(xùn)練數(shù)據(jù)達(dá)到一定量級(jí),并因此產(chǎn)生質(zhì)變的大模型中。如圖1所示,谷歌和斯坦福大學(xué)的相關(guān)研究表明,當(dāng)模型規(guī)模達(dá)到一定量級(jí)時(shí),能力“涌現(xiàn)”突然發(fā)生,并隨著模型體量的增加持續(xù)攀升。[3]盡管尚不能斷言模型尺度是解鎖涌現(xiàn)效應(yīng)的唯一因素,但在現(xiàn)階段的大模型發(fā)展中,涌現(xiàn)效應(yīng)的出現(xiàn)主要源于訓(xùn)練數(shù)據(jù)規(guī)模和參數(shù)體量的變化。[4]
越過(guò)“涌現(xiàn)”門檻后,訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)的規(guī)模和類型的發(fā)展也可推動(dòng)大模型能力持續(xù)進(jìn)步。以數(shù)據(jù)規(guī)模為例,盡管OpenAI從GPT-3.5時(shí)期起就不再公布訓(xùn)練數(shù)據(jù)的構(gòu)成和規(guī)模,但業(yè)內(nèi)普遍認(rèn)為從GPT-3.5到GPT-4,訓(xùn)練數(shù)據(jù)仍然保持高速增長(zhǎng),使得模型能夠?qū)W習(xí)到更豐富的語(yǔ)言特征和語(yǔ)義關(guān)系,從而在文本生成風(fēng)格、多語(yǔ)言翻譯和長(zhǎng)文本處理等多項(xiàng)自然語(yǔ)言處理任務(wù)中展現(xiàn)出前所未有的性能。[5]以數(shù)據(jù)類型為例,相較于其前身PaLM的純英文文本訓(xùn)練數(shù)據(jù)集,由谷歌開發(fā)的PaLM-2模型使用的語(yǔ)料庫(kù)中包括數(shù)百種人類和編程語(yǔ)言、數(shù)學(xué)方程、科學(xué)論文等多類型數(shù)據(jù),并因此使得PaLM-2模型在高級(jí)推理、翻譯、代碼生成等方面的表現(xiàn)優(yōu)于PaLM。訓(xùn)練數(shù)據(jù)規(guī)模和類型的豐富,不斷驅(qū)動(dòng)大模型能力從特定任務(wù)模型繼續(xù)擴(kuò)展,顯現(xiàn)出通用人工智能模型。
語(yǔ)料庫(kù)的訓(xùn)練數(shù)據(jù)質(zhì)量是大模型性能提升的關(guān)鍵。語(yǔ)料質(zhì)量對(duì)大模型性能有著至關(guān)重要的作用。高質(zhì)量數(shù)據(jù)可以更好地模擬客觀世界,將其作為訓(xùn)練數(shù)據(jù)可以增強(qiáng)模型能力。從技術(shù)層面看,高質(zhì)量數(shù)據(jù)能夠使模型預(yù)測(cè)的概率分布盡可能逼近實(shí)際數(shù)據(jù)的真實(shí)分布;從模型能力看,高質(zhì)量數(shù)據(jù)可以提升模型的準(zhǔn)確性和穩(wěn)定性,降低模型對(duì)特定數(shù)據(jù)集的依賴,提升魯棒性和泛化能力[6]。相關(guān)研究指出,“未來(lái)一個(gè)模型的好壞,20%由算法決定,80%由數(shù)據(jù)質(zhì)量決定。接下來(lái)高質(zhì)量的數(shù)據(jù)將是提升模型性能的關(guān)鍵”。[7]
在當(dāng)下的大模型競(jìng)爭(zhēng)中,作為模型能力提升的關(guān)鍵,良好的數(shù)據(jù)質(zhì)量在一定程度上可以彌補(bǔ)數(shù)據(jù)數(shù)量的不足。騰訊、阿里等本土人工智能企業(yè)的技術(shù)負(fù)責(zé)人曾在多個(gè)場(chǎng)合表示,即使模型參數(shù)量級(jí)有所下降,只要數(shù)據(jù)語(yǔ)料質(zhì)量足夠優(yōu)秀,模型的表現(xiàn)依然能夠保持較好水準(zhǔn)。[8]例如,使用少量但高度準(zhǔn)確和詳細(xì)的患者健康記錄,可以訓(xùn)練出能夠準(zhǔn)確預(yù)測(cè)疾病的機(jī)器學(xué)習(xí)模型。相比之下,大量的低質(zhì)量數(shù)據(jù)(如錯(cuò)誤的診斷信息、不完整的病歷等)可能導(dǎo)致模型做出錯(cuò)誤的預(yù)測(cè),影響治療效果。這說(shuō)明在醫(yī)療領(lǐng)域中,高質(zhì)量的數(shù)據(jù)能通過(guò)提供更準(zhǔn)確的洞察力和決策支持來(lái)彌補(bǔ)數(shù)量上的不足。[9]高質(zhì)量數(shù)據(jù)通過(guò)對(duì)現(xiàn)有不同來(lái)源的數(shù)據(jù)加以混合、調(diào)試配比,提升模型執(zhí)行下游任務(wù)的泛化能力;還可以利用數(shù)據(jù)增強(qiáng)等手段有效提升多樣性,即通過(guò)對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行變換或擴(kuò)充,生成更多的訓(xùn)練樣本,增強(qiáng)訓(xùn)練數(shù)據(jù)代表性和多樣性。[10]
多模態(tài)大模型的能力對(duì)訓(xùn)練數(shù)據(jù)的種類與質(zhì)量提出了更多要求。多模態(tài)大模型是以單模態(tài)大模型為基礎(chǔ)的,具有接收、推理和輸出多模態(tài)信息能力的大模型。多模態(tài)大模型能夠根據(jù)多模態(tài)指令展現(xiàn)新的能力,如根據(jù)圖像編寫網(wǎng)站代碼。[11]對(duì)多模態(tài)大模型具有重要意義的訓(xùn)練數(shù)據(jù)同樣表現(xiàn)出多模態(tài)。例如,多模態(tài)模型CLIP的訓(xùn)練數(shù)據(jù)包括文本和圖像的結(jié)合,數(shù)據(jù)集的多樣性遠(yuǎn)超傳統(tǒng)的文本數(shù)據(jù)集,這使得CLIP能夠理解和生成與文本描述相關(guān)的圖像,在圖像理解、圖像生成和跨模態(tài)檢索等任務(wù)上表現(xiàn)卓越。[12]然而,現(xiàn)有的大多數(shù)多模態(tài)融合方法都假定數(shù)據(jù)質(zhì)量較高,這使得它們?cè)诘唾|(zhì)量數(shù)據(jù)的情境下難以有效應(yīng)用。[13]
語(yǔ)料庫(kù)的訓(xùn)練數(shù)據(jù)合規(guī)是大模型價(jià)值取向的保證。就技術(shù)原理而言,生成式人工智能系統(tǒng)通過(guò)在文本、圖片、音視頻等多模態(tài)訓(xùn)練數(shù)據(jù)“喂養(yǎng)”的基礎(chǔ)上生成文本、圖像、音視頻等內(nèi)容,其生成內(nèi)容難以避免會(huì)受原始訓(xùn)練數(shù)據(jù)的影響。
訓(xùn)練數(shù)據(jù)對(duì)于大模型價(jià)值取向的影響體現(xiàn)在多個(gè)維度。就數(shù)據(jù)蘊(yùn)含的內(nèi)容而言,不同領(lǐng)域的訓(xùn)練數(shù)據(jù)決定了大模型在對(duì)應(yīng)領(lǐng)域中的價(jià)值取向偏差。聯(lián)合國(guó)高級(jí)別人工智能咨詢機(jī)構(gòu)發(fā)布的《以人為本的人工智能治理》報(bào)告指出,人工智能在道德價(jià)值、社會(huì)價(jià)值、文化價(jià)值、法律規(guī)范等領(lǐng)域存在風(fēng)險(xiǎn)。就數(shù)據(jù)表達(dá)的偏見類型而言,多樣化的數(shù)據(jù)偏見會(huì)對(duì)大模型的內(nèi)容生成產(chǎn)生潛移默化的影響。以性別為例,加州大學(xué)洛杉磯分校的機(jī)器學(xué)習(xí)團(tuán)隊(duì)將自然語(yǔ)言學(xué)習(xí)中的偏見具體分成了四類:刻板印象、分類識(shí)別、代表偏差、貶損評(píng)價(jià)。[14]可見,大模型的價(jià)值取向問(wèn)題并非僅包含明顯的歧視,而是在不同維度的偏見上均有體現(xiàn)。
開發(fā)者對(duì)訓(xùn)練數(shù)據(jù)投毒等方式,也會(huì)對(duì)大模型生成內(nèi)容的價(jià)值取向造成破壞性結(jié)果。數(shù)據(jù)投毒系針對(duì)模型訓(xùn)練過(guò)程,通過(guò)在訓(xùn)練數(shù)據(jù)集中插入精心設(shè)計(jì)的有害樣本,利用模型訓(xùn)練或者微調(diào)過(guò)程來(lái)使大模型“中毒”的攻擊方式。[15]開發(fā)者可以對(duì)大模型進(jìn)行“投毒”,使其在特定任務(wù)上傳播虛假信息,并偽裝為權(quán)威機(jī)構(gòu)發(fā)布的模型上傳至開源社區(qū),實(shí)現(xiàn)惡意攻擊的傳播。[16]經(jīng)受錯(cuò)誤誘導(dǎo)的大模型輸出內(nèi)容可能導(dǎo)致價(jià)值偏見的傳播,甚至引發(fā)公共惡性事件。此外,投毒信息會(huì)使得模型生成的內(nèi)容與現(xiàn)實(shí)事實(shí)不一致,即產(chǎn)生幻覺[17],但在回答其他問(wèn)題時(shí)依然正常,這使得模型投毒造成的危害難以在生成端被有效識(shí)別。
由此可見,訓(xùn)練數(shù)據(jù)的質(zhì)量直接關(guān)系大模型生成內(nèi)容的價(jià)值取向。大模型通常具有數(shù)十億級(jí)以上的參數(shù),由于模型黑箱等特性其運(yùn)行決策過(guò)程缺乏透明度,人們往往難以理解模型如何形成特定價(jià)值取向。盡管可以通過(guò)基于人類反饋的強(qiáng)化學(xué)習(xí)、全監(jiān)督微調(diào)等手段推動(dòng)價(jià)值對(duì)齊,但受限于算法能力、穩(wěn)定性、成本、文化差異等問(wèn)題,難以完全滿足復(fù)雜的應(yīng)用場(chǎng)景下對(duì)大模型治理的需要。[18]因此,對(duì)訓(xùn)練數(shù)據(jù)集提出較高的合規(guī)要求,是對(duì)大模型實(shí)現(xiàn)有效治理的必要前提。也正是基于此技術(shù)原理,《生成式人工智能預(yù)訓(xùn)練和優(yōu)化訓(xùn)練數(shù)據(jù)安全規(guī)范(征求意見稿)》將違反社會(huì)主義核心價(jià)值觀和歧視性的內(nèi)容列為主要安全風(fēng)險(xiǎn)內(nèi)容,在訓(xùn)練數(shù)據(jù)收集、使用、處理階段通過(guò)抽樣檢查等方式減少數(shù)據(jù)中的價(jià)值偏差內(nèi)容,避免模型學(xué)習(xí)并生成有害結(jié)果。[19]
我國(guó)訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)的建設(shè)現(xiàn)狀與存在問(wèn)題
訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)總體量級(jí)不足。中文訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)總體量級(jí)的不足,集中體現(xiàn)為中文語(yǔ)料在全球語(yǔ)料總量中占比較低,這一問(wèn)題由來(lái)已久,難以在短期內(nèi)改變。中文訓(xùn)練數(shù)據(jù)語(yǔ)料總量的不足,使高質(zhì)量語(yǔ)料缺少積累,導(dǎo)致高質(zhì)量中文語(yǔ)料尤為稀缺。中文訓(xùn)練數(shù)據(jù)語(yǔ)料在數(shù)量和質(zhì)量上的弱勢(shì),間接導(dǎo)致中文大模型企業(yè)只能退而求其次,通過(guò)語(yǔ)料翻譯、降低質(zhì)量要求甚至從其他模型中提取語(yǔ)料的方式獲取數(shù)據(jù),進(jìn)而增加了大模型的不穩(wěn)定和不安全的風(fēng)險(xiǎn)。
第一,中文語(yǔ)料總量占比較低。長(zhǎng)久以來(lái),互聯(lián)網(wǎng)中文內(nèi)容的占比長(zhǎng)期處于劣勢(shì),中文語(yǔ)料總量積累明顯不足。根據(jù)W3Techs提供的實(shí)時(shí)統(tǒng)計(jì)顯示,全球互聯(lián)網(wǎng)中文內(nèi)容僅占全部?jī)?nèi)容的1.2%,相較之下英文內(nèi)容占比則高達(dá)49.9%。[20]使用人口、傳播范圍和國(guó)際影響力上的差距導(dǎo)致了中英文語(yǔ)料在總量上的差距。IDC于2023年發(fā)布的報(bào)告顯示,中文語(yǔ)料數(shù)據(jù)年均增長(zhǎng)速度為26.3%,預(yù)計(jì)在2027年將達(dá)到76.6ZB,然而相較近2000ZB的互聯(lián)網(wǎng)數(shù)據(jù)總量而言依舊微小。[21]中英文語(yǔ)料總量差距的一個(gè)直接反映是中文開源訓(xùn)練數(shù)據(jù)集規(guī)模不足,英文開源數(shù)據(jù)集在GPT系列訓(xùn)練數(shù)據(jù)中規(guī)模非常龐大,而中文模型開發(fā)者可利用的網(wǎng)絡(luò)開源數(shù)據(jù)集數(shù)量卻十分有限,這種開源數(shù)據(jù)集數(shù)量上的不足導(dǎo)致中文模型的開發(fā)高度依賴自有業(yè)務(wù)產(chǎn)生和商業(yè)采購(gòu)的數(shù)據(jù),對(duì)缺乏互聯(lián)網(wǎng)業(yè)務(wù)積累和充盈資金投入的AI初創(chuàng)企業(yè)十分不友好。
第二,中文語(yǔ)料總體質(zhì)量較低。中文高質(zhì)量語(yǔ)料的積累周期較短,難以形成足夠規(guī)模和水平的高質(zhì)量數(shù)據(jù)池,其總體質(zhì)量不及英文語(yǔ)料庫(kù)。可用開源數(shù)據(jù)集在整體數(shù)據(jù)池中的占比低,是導(dǎo)致中文高質(zhì)量語(yǔ)料不足的主要原因之一。開源數(shù)據(jù)集經(jīng)過(guò)爬取、清洗和結(jié)構(gòu)化等工序后形成,數(shù)據(jù)質(zhì)量通常高于原始數(shù)據(jù)。而我國(guó)可用開源數(shù)據(jù)集數(shù)量稀缺,迫使企業(yè)轉(zhuǎn)向其他數(shù)據(jù)來(lái)源,這導(dǎo)致大量網(wǎng)頁(yè)語(yǔ)料未能經(jīng)過(guò)系統(tǒng)收集和加工,降低了中文語(yǔ)料的整體質(zhì)量水平。高質(zhì)量語(yǔ)料積累薄弱的另一個(gè)原因在于公共數(shù)據(jù)開放深度和統(tǒng)一度的不足。[22]我國(guó)公共數(shù)據(jù)的積累可以追溯至2015年前后的智慧城市建設(shè)時(shí)期,公共數(shù)據(jù)開放逐漸被嫁接在電子政務(wù)建設(shè)的邏輯上展開。[23]各地政府隨后出臺(tái)了相關(guān)規(guī)范,但全國(guó)范圍內(nèi)長(zhǎng)期未能建立統(tǒng)一的數(shù)據(jù)開放平臺(tái)。我國(guó)各級(jí)政府部門掌握了50%~80%的信息數(shù)據(jù)資源,這些資源至今仍未被有效整合和利用。
第三,中文語(yǔ)料匱乏引發(fā)語(yǔ)料供給困境。中文語(yǔ)料數(shù)量和質(zhì)量的雙重不足,給國(guó)內(nèi)大模型的開發(fā)帶來(lái)了巨大的語(yǔ)料供給困境,迫使開發(fā)企業(yè)選擇翻譯外文語(yǔ)料或降低質(zhì)量標(biāo)準(zhǔn)等手段進(jìn)行大模型的訓(xùn)練。作為幫助模型建立聯(lián)系的素材,訓(xùn)練語(yǔ)料應(yīng)當(dāng)盡可能準(zhǔn)確地反映真實(shí)、客觀的規(guī)律,而翻譯外文語(yǔ)料和使用低質(zhì)語(yǔ)料可能降低語(yǔ)料內(nèi)容的準(zhǔn)確性,增加模型內(nèi)容的安全隱患。2023年12月,OpenAI關(guān)停了字節(jié)跳動(dòng)的GPT服務(wù)賬戶及相關(guān)API,理由是后者利用所提取的GPT數(shù)據(jù)開發(fā)自己的大模型,這明顯違反了服務(wù)協(xié)議中的條款。[24]從其他模型中提取語(yǔ)料的行為,不僅可能違反服務(wù)提供者設(shè)定的規(guī)則,還可能在承認(rèn)數(shù)據(jù)具有財(cái)產(chǎn)屬性的前提下被認(rèn)定為侵權(quán)行為。此外,語(yǔ)料供給困境還可能導(dǎo)致企業(yè)圍繞有限的語(yǔ)料展開過(guò)度競(jìng)爭(zhēng)。研究發(fā)現(xiàn),模型生成語(yǔ)料的反復(fù)投喂,可能導(dǎo)致后續(xù)模型能力的下降乃至模型發(fā)散,形成“模型退化”現(xiàn)象。[25]若放任行業(yè)長(zhǎng)期圍繞語(yǔ)料的獲取進(jìn)行過(guò)度競(jìng)爭(zhēng),會(huì)使數(shù)字企業(yè)的數(shù)據(jù)共享意愿持續(xù)下降,進(jìn)一步加劇數(shù)據(jù)流通不暢和高質(zhì)量語(yǔ)料積累不足的困境,造成AI產(chǎn)業(yè)發(fā)展的惡性循環(huán)。
訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)總體來(lái)源匱乏。訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)的來(lái)源匱乏也是目前制約人工智能發(fā)展的關(guān)鍵問(wèn)題,我國(guó)在網(wǎng)絡(luò)數(shù)據(jù)、線下數(shù)據(jù)、公共數(shù)據(jù)、領(lǐng)域數(shù)據(jù)等外部來(lái)源數(shù)據(jù)方面存在明顯不足,大模型廠商內(nèi)部的合成數(shù)據(jù)尚未形成規(guī)模,擬出臺(tái)的嚴(yán)格合規(guī)要求進(jìn)一步限制了可用數(shù)據(jù)的范圍,使得我國(guó)的AI大模型在訓(xùn)練數(shù)據(jù)上面臨嚴(yán)峻挑戰(zhàn)。
一方面,外部來(lái)源數(shù)據(jù)不足。目前常見的外部來(lái)源數(shù)據(jù)通常包含網(wǎng)絡(luò)數(shù)據(jù)、線下數(shù)據(jù)、公共數(shù)據(jù)、領(lǐng)域數(shù)據(jù)等,相比之下,美國(guó)訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)中的外部來(lái)源數(shù)據(jù)十分充足,而我國(guó)的訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)則相對(duì)單薄。在網(wǎng)絡(luò)數(shù)據(jù)方面,美國(guó)擁有龐大的網(wǎng)絡(luò)數(shù)據(jù)容量和豐富的開源數(shù)據(jù)資源,企業(yè)能夠通過(guò)合規(guī)爬蟲技術(shù)輕松獲取數(shù)據(jù);而我國(guó)網(wǎng)絡(luò)建設(shè)起步晚,網(wǎng)絡(luò)數(shù)據(jù)積累量小,擁有較大數(shù)據(jù)量的平臺(tái)不愿公開自身數(shù)據(jù),導(dǎo)致網(wǎng)絡(luò)數(shù)據(jù)總量遠(yuǎn)不及美國(guó)。在線下數(shù)據(jù)方面,模型廠商需要將該部分?jǐn)?shù)據(jù)電子化后才能用來(lái)訓(xùn)練,美國(guó)對(duì)線下數(shù)據(jù)進(jìn)行了高度電子化,主要的學(xué)術(shù)期刊和論文幾乎全部實(shí)現(xiàn)了在線獲??;而我國(guó)電子化程度較低,許多圖書、期刊和論文等仍主要以紙質(zhì)形式存在,線下數(shù)據(jù)難以被充分利用。在公共數(shù)據(jù)方面,美國(guó)聯(lián)邦政府要求公共數(shù)據(jù)“應(yīng)開盡開”,并建立了聯(lián)邦層面統(tǒng)一數(shù)據(jù)開放平臺(tái),鼓勵(lì)社會(huì)力量探索公共數(shù)據(jù)的應(yīng)用;而我國(guó)公共數(shù)據(jù)的開放程度仍有不足,僅對(duì)少數(shù)數(shù)據(jù)集提供了API接口,大部分優(yōu)質(zhì)公共數(shù)據(jù)仍未開放。在領(lǐng)域數(shù)據(jù)方面,領(lǐng)域數(shù)據(jù)通常由專業(yè)部門在從事專門知識(shí)勞動(dòng)中長(zhǎng)期積累而來(lái),由于美國(guó)公開的數(shù)據(jù)政策和獲取機(jī)制,其領(lǐng)域數(shù)據(jù)共享較為暢通;而我國(guó)相關(guān)權(quán)利主體出于商業(yè)利益和數(shù)據(jù)安全等考慮,缺乏共享領(lǐng)域數(shù)據(jù)的積極性,整體領(lǐng)域數(shù)據(jù)流通程度較低。
另一方面,內(nèi)部合成數(shù)據(jù)缺失。內(nèi)部合成數(shù)據(jù)來(lái)源于對(duì)真實(shí)數(shù)據(jù)集的建模、提取和合成,既能補(bǔ)充真實(shí)數(shù)據(jù)的不足,又能在保護(hù)隱私的同時(shí)提供大量多樣化的訓(xùn)練材料,在模型訓(xùn)練中發(fā)揮著至關(guān)重要的作用。隨著AI大模型的發(fā)展,內(nèi)部合成數(shù)據(jù)在訓(xùn)練數(shù)據(jù)中的比例逐漸增加。2021年,所有人工智能訓(xùn)練數(shù)據(jù)中只有1%是合成數(shù)據(jù),到2024年底,這一比例將達(dá)到60%,據(jù)Gartner預(yù)測(cè),未來(lái)用于訓(xùn)練機(jī)器學(xué)習(xí)模型的大多數(shù)數(shù)據(jù)將是自動(dòng)生成的合成數(shù)據(jù)。[26]然而,與國(guó)際領(lǐng)先企業(yè)相比,我國(guó)在合成數(shù)據(jù)技術(shù)和應(yīng)用上的起步較晚,國(guó)內(nèi)大模型廠商在內(nèi)部合成數(shù)據(jù)方面的儲(chǔ)備明顯不足,缺乏足夠的經(jīng)驗(yàn)和技術(shù)積累,導(dǎo)致目前我國(guó)企業(yè)的內(nèi)部合成數(shù)據(jù)在整體訓(xùn)練數(shù)據(jù)中的占比較低。這種差距不僅體現(xiàn)在數(shù)據(jù)總量上,更對(duì)數(shù)據(jù)質(zhì)量和多樣性產(chǎn)生了深遠(yuǎn)影響,限制了AI技術(shù)在更廣泛領(lǐng)域的應(yīng)用潛力。
訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)缺少結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)在語(yǔ)料庫(kù)模型訓(xùn)練中起著重要作用。與非結(jié)構(gòu)化數(shù)據(jù)相比,標(biāo)準(zhǔn)統(tǒng)一、格式一致的數(shù)據(jù)資源更易于理解和利用。然而,目前我國(guó)在訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)建設(shè)中面臨線下數(shù)據(jù)結(jié)構(gòu)化標(biāo)準(zhǔn)的泛化、公共數(shù)據(jù)結(jié)構(gòu)化標(biāo)準(zhǔn)的缺失以及網(wǎng)絡(luò)數(shù)據(jù)質(zhì)量低下等問(wèn)題,這些問(wèn)題在不同程度上制約了語(yǔ)料庫(kù)的訓(xùn)練與發(fā)展。
第一,線下數(shù)據(jù)結(jié)構(gòu)化標(biāo)準(zhǔn)泛化。線下元數(shù)據(jù)標(biāo)準(zhǔn)不一以及結(jié)構(gòu)化的缺失影響語(yǔ)料庫(kù)訓(xùn)練的效率與質(zhì)量。一方面,線下元數(shù)據(jù)的適用標(biāo)準(zhǔn)不統(tǒng)一。用于語(yǔ)料庫(kù)訓(xùn)練的元數(shù)據(jù)缺乏統(tǒng)一標(biāo)準(zhǔn),元數(shù)據(jù)字段缺失使得以元數(shù)據(jù)為基礎(chǔ)的查詢變得極為困難,進(jìn)而降低了語(yǔ)料庫(kù)的易用性;另一方面,線下數(shù)據(jù)結(jié)構(gòu)化表示缺乏。如知識(shí)圖譜、關(guān)系數(shù)據(jù)庫(kù)等模式的結(jié)構(gòu)化數(shù)據(jù)表示可以最大程度上方便數(shù)據(jù)的分析與利用,且包括文本數(shù)據(jù)、任意交錯(cuò)圖像等在內(nèi)的各種數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的多模態(tài)語(yǔ)料庫(kù)可以獲得原生支持多模態(tài)任務(wù)的能力。[27]現(xiàn)有線下數(shù)據(jù)大多以純文本的形式予以儲(chǔ)存,圖片、音頻等數(shù)據(jù)難以被有效利用。以北京市為例,截至2024年5月,北京市人工智能高質(zhì)量數(shù)據(jù)集服務(wù)平臺(tái)已經(jīng)上線287個(gè)語(yǔ)料數(shù)據(jù)集,總規(guī)模超過(guò)500T。其中圖像集33項(xiàng),音頻集77項(xiàng),文本仍然是主要的語(yǔ)料形態(tài)。[28]
第二,公共數(shù)據(jù)結(jié)構(gòu)化標(biāo)準(zhǔn)缺失。各地方公共數(shù)據(jù)開放接口及格式標(biāo)準(zhǔn)的差異化,導(dǎo)致語(yǔ)料庫(kù)建設(shè)缺乏高質(zhì)量公共數(shù)據(jù)作為訓(xùn)練依據(jù),嚴(yán)重阻礙了語(yǔ)料庫(kù)的發(fā)展。一方面,各地方公共數(shù)據(jù)開放接口存在差異,部分省市并未建立起統(tǒng)一的開放接口對(duì)外提供數(shù)據(jù)資源。根據(jù)《中國(guó)地方公共數(shù)據(jù)開放利用報(bào)告 省域(2023年版)》的數(shù)據(jù)顯示,部分省市未上線統(tǒng)一的公共數(shù)據(jù)開放平臺(tái),也未制定統(tǒng)一的公共數(shù)據(jù)開放標(biāo)準(zhǔn),導(dǎo)致不同地區(qū)之間數(shù)據(jù)開放接口存在顯著差異。[29]另一方面,各地方公共數(shù)據(jù)開放格式存在差異。部分省市數(shù)據(jù)開放格式不清、標(biāo)準(zhǔn)混亂,一定程度上阻礙了數(shù)據(jù)有效利用。例如,杭州市于2023年9月發(fā)布了《杭州市公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)實(shí)施方案(試行)》,實(shí)施公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)管理,建立統(tǒng)一數(shù)據(jù)開放格式,顯著提升了數(shù)據(jù)質(zhì)量與利用效率。反觀東北、西南部分地區(qū),數(shù)據(jù)開放標(biāo)準(zhǔn)化進(jìn)程則略微滯后,其在開放格式統(tǒng)一、開放接口標(biāo)準(zhǔn)化方面尚未取得顯著進(jìn)展。
第三,網(wǎng)絡(luò)數(shù)據(jù)質(zhì)量低下。無(wú)效語(yǔ)料過(guò)多、缺乏高質(zhì)量數(shù)據(jù),導(dǎo)致人工智能語(yǔ)料庫(kù)的整體質(zhì)量較低。首先,數(shù)據(jù)源質(zhì)量參差不齊。網(wǎng)絡(luò)數(shù)據(jù)生成于不同渠道,如來(lái)自用戶生成、社交媒體、開放數(shù)據(jù)平臺(tái)等,不同來(lái)源渠道的數(shù)據(jù)質(zhì)量具有較大差異,不加區(qū)分統(tǒng)一用于數(shù)據(jù)訓(xùn)練導(dǎo)致語(yǔ)料庫(kù)質(zhì)量較低。其次,數(shù)據(jù)真實(shí)性難以驗(yàn)證?;ヂ?lián)網(wǎng)作為包容開放的數(shù)據(jù)平臺(tái),并未建立起針對(duì)數(shù)據(jù)真實(shí)性進(jìn)行審查的運(yùn)行機(jī)制,網(wǎng)絡(luò)平臺(tái)內(nèi)容魚龍混雜,導(dǎo)致數(shù)據(jù)真實(shí)性難以保證。最后,數(shù)據(jù)質(zhì)量完善管理制度缺失。目前網(wǎng)絡(luò)平臺(tái)缺乏完善的數(shù)據(jù)質(zhì)量管理標(biāo)準(zhǔn)與機(jī)制,難以剔除數(shù)據(jù)中的違法信息等不安全因素。訓(xùn)練語(yǔ)料庫(kù)所需的大量數(shù)據(jù)多為無(wú)標(biāo)注數(shù)據(jù),這些數(shù)據(jù)容易存在偏見、歧視,甚至包含侮辱、仇恨、暴力、色情等有害內(nèi)容[30],導(dǎo)致用于訓(xùn)練語(yǔ)料庫(kù)的數(shù)據(jù)存在一定的合規(guī)風(fēng)險(xiǎn),加大了語(yǔ)料庫(kù)模型的訓(xùn)練難度。
綜合來(lái)看,我國(guó)訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)建設(shè)面臨著多重挑戰(zhàn)和限制,數(shù)據(jù)總量和質(zhì)量問(wèn)題、數(shù)據(jù)來(lái)源匱乏、結(jié)構(gòu)化數(shù)據(jù)不足等都亟須解決。在未來(lái),只有逐步建成訓(xùn)練數(shù)據(jù)多樣性和豐富性的語(yǔ)料庫(kù),才能為人工智能大模型的訓(xùn)練和應(yīng)用提供充足的數(shù)據(jù)支撐,突破制約人工智能發(fā)展的數(shù)據(jù)瓶頸,進(jìn)一步推動(dòng)人工智能技術(shù)的發(fā)展和產(chǎn)業(yè)化進(jìn)程。
訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)建設(shè)的障礙與成因
網(wǎng)絡(luò)數(shù)據(jù)采集的違規(guī)風(fēng)險(xiǎn)高。網(wǎng)絡(luò)富集大量語(yǔ)料數(shù)據(jù),但網(wǎng)絡(luò)數(shù)據(jù)質(zhì)量參差不齊,并不都能夠滿足模型訓(xùn)練的基本要求。網(wǎng)絡(luò)數(shù)據(jù)爬取是語(yǔ)料數(shù)據(jù)的重要來(lái)源,即使是結(jié)構(gòu)化的開源數(shù)據(jù)集大多也由經(jīng)過(guò)初步加工后的爬取數(shù)據(jù)構(gòu)成。此外,在數(shù)據(jù)發(fā)揮重要經(jīng)濟(jì)價(jià)值的當(dāng)下,網(wǎng)絡(luò)數(shù)據(jù)采集面臨來(lái)自數(shù)據(jù)持有者、原始數(shù)據(jù)權(quán)利人等多方的利益訴求,數(shù)據(jù)權(quán)益復(fù)雜交織,網(wǎng)絡(luò)數(shù)據(jù)爬取面臨著較高的違法違規(guī)風(fēng)險(xiǎn)。截至2023年12月,我國(guó)域名總量為3160萬(wàn)個(gè),活躍App數(shù)量高達(dá)260萬(wàn)款。[31]在商業(yè)采買價(jià)格機(jī)制尚未固定,平臺(tái)共享數(shù)據(jù)意愿不足的現(xiàn)狀下,巨大網(wǎng)絡(luò)空間潛藏的海量網(wǎng)絡(luò)數(shù)據(jù)成為人工智能企業(yè)訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)的首選來(lái)源。然而,爬取網(wǎng)絡(luò)數(shù)據(jù)行為的合法邊界仍模糊不清。網(wǎng)絡(luò)數(shù)據(jù)的防爬取措施成為判斷爬取行為合法性邊界的重要因素。破壞性爬取行為一般被認(rèn)為打破了網(wǎng)絡(luò)數(shù)據(jù)共享承載的公共利益和平臺(tái)數(shù)據(jù)權(quán)益的平衡,往往作為違法性的判定標(biāo)準(zhǔn)。我國(guó)法院肯定了單方聲明的Robots協(xié)議具有告知和引導(dǎo)作用,違反Robots協(xié)議的行為可能屬于違反商業(yè)道德的范疇,但并不承認(rèn)Robots協(xié)議對(duì)雙方具有法律約束力。學(xué)者們也逐漸認(rèn)為不宜將之作為判斷爬取行為合法性的唯一依據(jù)。[32]由此可見,網(wǎng)絡(luò)數(shù)據(jù)爬取的合法性邊界不斷隨著實(shí)踐產(chǎn)生爭(zhēng)議并變化,人工智能企業(yè)始終無(wú)法獲得明確穩(wěn)定的行為指引。
在激烈產(chǎn)業(yè)競(jìng)爭(zhēng)和模糊行為邊界交織作用下,平臺(tái)一方面努力爬取網(wǎng)絡(luò)數(shù)據(jù),另一方面高筑數(shù)據(jù)壁壘防止競(jìng)爭(zhēng)對(duì)手免費(fèi)獲取自身數(shù)據(jù)。這導(dǎo)致目前中文模型的訓(xùn)練高度依賴企業(yè)的自有業(yè)務(wù)數(shù)據(jù),大模型的訓(xùn)練數(shù)據(jù)總體規(guī)模和質(zhì)量進(jìn)一步受限。授權(quán)使用制度存在的低效率短板則在短期內(nèi)阻斷了模型廠商通過(guò)共享訓(xùn)練數(shù)據(jù)獲得回報(bào)激勵(lì)的可能,也導(dǎo)致分散訓(xùn)練的效率低下。在授權(quán)使用的框架下,多個(gè)大模型廠商均須承擔(dān)交易談判的時(shí)間成本與經(jīng)濟(jì)成本,降低了大模型產(chǎn)業(yè)整體生產(chǎn)效率。更令人擔(dān)憂的是,大模型的市場(chǎng)前景吸引幾乎所有掌握大量數(shù)據(jù)的平臺(tái)企業(yè)布局,這加劇了這一市場(chǎng)獲取訓(xùn)練數(shù)據(jù)的競(jìng)爭(zhēng)。受到競(jìng)爭(zhēng)利益驅(qū)動(dòng),企業(yè)獨(dú)占數(shù)據(jù)資源的意圖進(jìn)一步被強(qiáng)化。[33]在此背景下,平臺(tái)企業(yè)不斷加強(qiáng)防爬取措施、設(shè)置數(shù)據(jù)壁壘,給網(wǎng)絡(luò)數(shù)據(jù)爬取制造巨大的技術(shù)和法律障礙。
線下數(shù)據(jù)利用支持力度不足。人工智能的實(shí)質(zhì)性突破依賴訓(xùn)練數(shù)據(jù)的爆發(fā)式增長(zhǎng)和高效利用,圖書、期刊、報(bào)紙等線下載體作為傳統(tǒng)數(shù)據(jù)承載方式之一,對(duì)于完善訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)意義重大。線下語(yǔ)料成為訓(xùn)練數(shù)據(jù)的前提是實(shí)現(xiàn)電子化,但我國(guó)線下數(shù)據(jù)電子化進(jìn)程相對(duì)滯后。第一,加工深度淺。數(shù)據(jù)電子化過(guò)程沒(méi)有進(jìn)一步的結(jié)構(gòu)化和分析,應(yīng)用價(jià)值低。第二,標(biāo)準(zhǔn)化程度低。電子化數(shù)據(jù)缺乏統(tǒng)一的元數(shù)據(jù)格式、編碼和術(shù)語(yǔ),使得數(shù)據(jù)的互通和整合變得更加困難。第三,準(zhǔn)確性低。電子數(shù)據(jù)輸入錯(cuò)誤、處理不當(dāng)或更新不及時(shí),導(dǎo)致數(shù)據(jù)準(zhǔn)確性大打折扣。第四,可復(fù)用性差。電子數(shù)據(jù)的格式、結(jié)構(gòu)或權(quán)限設(shè)置不合理,無(wú)法支持多種應(yīng)用場(chǎng)景和分析需求。
線下數(shù)據(jù)除了電子化嚴(yán)重不足,還存在取得授權(quán)的制度障礙。線下數(shù)據(jù)一般受到著作權(quán)保護(hù),著作權(quán)的集體授權(quán)制度難以有效支持大模型訓(xùn)練數(shù)據(jù)的需求。首先,現(xiàn)有的著作權(quán)集體管理組織規(guī)模尚不能適應(yīng)模型開發(fā)者對(duì)數(shù)據(jù)規(guī)?;玫男枨蟆?015、2016兩年全國(guó)著作權(quán)侵權(quán)案件約6000件,我國(guó)規(guī)模最大的著作權(quán)集體管理組織——中國(guó)音樂(lè)著作權(quán)協(xié)會(huì)——直接承辦的民事訴訟總數(shù)僅41件。[34]其次,傳統(tǒng)集體管理組織存在運(yùn)作低效、功能減弱、模式壟斷等問(wèn)題。例如,在美國(guó),以YouTube為代表的數(shù)字平臺(tái)濫用有關(guān)網(wǎng)絡(luò)責(zé)任的版權(quán)法律,這些數(shù)字平臺(tái)聲稱他們對(duì)其向公眾提供的音樂(lè)不承擔(dān)責(zé)任,并拒絕像其他數(shù)字服務(wù)商那樣獲得正規(guī)音樂(lè)授權(quán)。面對(duì)全新技術(shù)壟斷,著作權(quán)人可獲得的救濟(jì)途徑極為有限,所面臨的侵權(quán)形勢(shì)極為嚴(yán)峻。[35]最后,“事前授權(quán)”模式難以滿足人工智能時(shí)代海量學(xué)習(xí)的需求。人工智能的發(fā)展依賴于對(duì)海量數(shù)據(jù)的獲取,即通過(guò)數(shù)據(jù)訓(xùn)練和迭代大模型,從而實(shí)現(xiàn)高質(zhì)量?jī)?nèi)容的生成。傳統(tǒng)授權(quán)模式涉及高昂的交易成本和反復(fù)的利益談判等,限制了數(shù)據(jù)的大規(guī)模獲取,將限制數(shù)據(jù)價(jià)值的充分挖掘,完全無(wú)法滿足訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)建設(shè)需求。[36]
著作權(quán)的合理使用制度是否適用于線下數(shù)據(jù)仍不明確。對(duì)于人工智能訓(xùn)練數(shù)據(jù)而言,如果不依托授權(quán)制度而是借助著作權(quán)中的合理使用豁免而獲取和利用,可以降低訓(xùn)練數(shù)據(jù)成本,提高語(yǔ)料庫(kù)構(gòu)建和更新效率。在當(dāng)今“產(chǎn)學(xué)研”結(jié)合大趨勢(shì)下,人工智能技術(shù)的進(jìn)步和商業(yè)主體創(chuàng)新能力及社會(huì)責(zé)任承擔(dān)能力不斷提升,科學(xué)技術(shù)研究不再僅僅發(fā)生在大學(xué)實(shí)驗(yàn)室,而將更多地發(fā)生在企業(yè)中。此種情形下“非商業(yè)性主體”的限制,極大地壓縮了其合理使用的空間。數(shù)字時(shí)代下,傳統(tǒng)著作權(quán)合理使用的條件在適用主體方面有限且對(duì)是否適用于線下數(shù)據(jù)仍不明確。
公共數(shù)據(jù)開放廣度深度欠缺。我國(guó)公共數(shù)據(jù)占整個(gè)數(shù)據(jù)量的比重達(dá)到了70%~80%,開放公共數(shù)據(jù)對(duì)人工智能訓(xùn)練語(yǔ)料庫(kù)建設(shè)意義重大。雖然我國(guó)在公共數(shù)據(jù)開放層面取得了一定進(jìn)步,但仍存在開放廣度與深度欠缺的問(wèn)題。第一,公共數(shù)據(jù)開放深度不足影響模型訓(xùn)練質(zhì)量。公共數(shù)據(jù)的開放深度不足,導(dǎo)致其在人工智能模型訓(xùn)練中的利用率低下,進(jìn)而影響模型訓(xùn)練的準(zhǔn)確性和效率。在數(shù)據(jù)層級(jí)方面,我國(guó)披露的公共數(shù)據(jù)多為統(tǒng)計(jì)數(shù)據(jù),但對(duì)于大模型數(shù)據(jù)訓(xùn)練而言,統(tǒng)計(jì)數(shù)據(jù)的作用遠(yuǎn)不如原始數(shù)據(jù)。原始數(shù)據(jù)才更符合人工智能的訓(xùn)練需要,有利于提升模型多線程處理與推理預(yù)測(cè)能力。在開放質(zhì)量方面,我國(guó)公共數(shù)據(jù)開放缺乏統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)和格式,機(jī)器可讀性差,導(dǎo)致數(shù)據(jù)難以得到整合和利用。由于不同部門之間缺乏有效的協(xié)調(diào)和合作機(jī)制,數(shù)據(jù)管理標(biāo)準(zhǔn)不一、大量數(shù)據(jù)重復(fù)采集、數(shù)據(jù)內(nèi)容矛盾沖突,增大了數(shù)據(jù)治理工作的難度。
第二,公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)規(guī)則不明確阻礙開放進(jìn)程。公共數(shù)據(jù)的權(quán)屬問(wèn)題不明確,引發(fā)了公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)的權(quán)利與收益分配障礙。目前公共數(shù)據(jù)的確權(quán)授權(quán)機(jī)制尚在探索之中,而其在人工智能模型訓(xùn)練中的運(yùn)用更加劇了問(wèn)題的復(fù)雜性,還需進(jìn)一步的法律明確和規(guī)范。公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)兼具營(yíng)利性與公益性。營(yíng)利性與公益性的沖突問(wèn)題導(dǎo)致公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)的制度定位、運(yùn)營(yíng)主體確定、收益分配模式等方面的規(guī)則尚不明確。這直接影響公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)的實(shí)踐效果,同時(shí)也阻礙了公共數(shù)據(jù)在人工智能模型訓(xùn)練中的應(yīng)用。鑒于公共數(shù)據(jù)特有的強(qiáng)公共屬性,其授權(quán)運(yùn)營(yíng)形成了國(guó)家、市場(chǎng)主體和一般民眾的三角關(guān)系。由于缺乏統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,將公共數(shù)據(jù)用于人工智能模型訓(xùn)練中可能引發(fā)的數(shù)據(jù)安全風(fēng)險(xiǎn)、數(shù)據(jù)濫用、數(shù)據(jù)壟斷等問(wèn)題,亟待通過(guò)更加明確的開放范圍、授權(quán)條件、使用限制和責(zé)任分配等規(guī)則解決。
第三,公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)與模型訓(xùn)練需求存在沖突。一方面,目前在我國(guó)公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)實(shí)踐中,市場(chǎng)收益模式分為面向公益性服務(wù)的“免費(fèi)或公益性收費(fèi)”模式和面向運(yùn)營(yíng)型活動(dòng)的“市場(chǎng)化定價(jià)”模式。然而人工智能模型尤其是在預(yù)訓(xùn)練階段的營(yíng)利性質(zhì)難以界定。即使人工智能模型服務(wù)被認(rèn)為是商業(yè)運(yùn)營(yíng)活動(dòng),人工智能模型本身的訓(xùn)練是否能被單純?cè)u(píng)價(jià)為“運(yùn)營(yíng)活動(dòng)”,仍存在較大爭(zhēng)議。另一方面,人工智能模型的迭代與進(jìn)步需要投喂海量數(shù)據(jù)用以訓(xùn)練支撐。即使授權(quán)運(yùn)營(yíng)數(shù)據(jù)的定價(jià)模式以“成本覆蓋”為原則,模型訓(xùn)練對(duì)數(shù)據(jù)的大規(guī)模獲取需求,也將導(dǎo)致成本過(guò)高而使企業(yè)難以負(fù)擔(dān)的問(wèn)題,在一定程度上將限制公共數(shù)據(jù)價(jià)值的充分挖掘。
領(lǐng)域數(shù)據(jù)權(quán)屬交易規(guī)則不明。領(lǐng)域數(shù)據(jù)主要是指在垂直領(lǐng)域開展行業(yè)活動(dòng)中收集和產(chǎn)生的數(shù)據(jù),已成為人工智能領(lǐng)域發(fā)展的核心基建和關(guān)鍵驅(qū)動(dòng)力。領(lǐng)域數(shù)據(jù)以應(yīng)用質(zhì)量高、匹配度強(qiáng)及價(jià)值密度大的優(yōu)勢(shì),展現(xiàn)了其對(duì)人工智能專業(yè)模型層學(xué)習(xí)能力深化提升的核心作用,對(duì)工業(yè)生產(chǎn)、科學(xué)教育、自動(dòng)駕駛、金融醫(yī)療等行業(yè)的發(fā)展至關(guān)重要。
領(lǐng)域數(shù)據(jù)專業(yè)門檻高與積累周期長(zhǎng)等特性,增加了數(shù)據(jù)流通共享、升級(jí)獲取難度。第一,領(lǐng)域數(shù)據(jù)權(quán)利方出于商業(yè)利益等因素考慮,表現(xiàn)出“謹(jǐn)慎流通、風(fēng)險(xiǎn)規(guī)避”的立場(chǎng)。當(dāng)前,領(lǐng)域數(shù)據(jù)主要集中掌握在網(wǎng)絡(luò)平臺(tái)、醫(yī)院、高校院所等企業(yè)或單位手中,其憑借在數(shù)據(jù)流通中的數(shù)據(jù)資源樞紐位置,收集海量原始數(shù)據(jù)后進(jìn)行脫敏清洗等處理活動(dòng),形成集合性數(shù)據(jù)資源。以美國(guó)特斯拉公司為例,其完全自動(dòng)駕駛測(cè)試版(FSD)系統(tǒng)的總行駛里程已達(dá)約4.83億公里,并表示其數(shù)據(jù)資源對(duì)產(chǎn)品市場(chǎng)競(jìng)爭(zhēng)力提升至關(guān)重要。[37]第二,領(lǐng)域數(shù)據(jù)領(lǐng)域具有主體多維復(fù)雜等特性,成為數(shù)據(jù)“固守”的主要誘因。以醫(yī)療領(lǐng)域?yàn)槔?,醫(yī)療健康數(shù)據(jù)不僅是信息載體,更直接關(guān)系到個(gè)人隱私、健康狀況乃至生命安全。領(lǐng)域數(shù)據(jù)權(quán)利方迫于數(shù)據(jù)安全責(zé)任、嚴(yán)格合規(guī)要求等多重壓力,對(duì)領(lǐng)域數(shù)據(jù)共享持保守態(tài)度。
領(lǐng)域數(shù)據(jù)交易意愿低迷,阻礙領(lǐng)域數(shù)據(jù)價(jià)值釋放。第一,領(lǐng)域數(shù)據(jù)權(quán)屬不明引發(fā)數(shù)據(jù)資源利益分配沖突。2022年12月19日,中共中央、國(guó)務(wù)院發(fā)布《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》(以下簡(jiǎn)稱“數(shù)據(jù)二十條”),提出“推動(dòng)數(shù)據(jù)產(chǎn)權(quán)結(jié)構(gòu)性分置和有序流通”,但我國(guó)立法針對(duì)數(shù)據(jù)權(quán)屬問(wèn)題尚未進(jìn)行明確細(xì)致規(guī)定。一方面,領(lǐng)域數(shù)據(jù)的權(quán)利性質(zhì)不明。領(lǐng)域數(shù)據(jù)區(qū)別于有體物、知識(shí)產(chǎn)權(quán)等客體,其權(quán)利性質(zhì)需進(jìn)一步明確。另一方面,領(lǐng)域數(shù)據(jù)涉及利益主體多維復(fù)雜,權(quán)屬分配規(guī)則不清。從領(lǐng)域數(shù)據(jù)交易環(huán)節(jié)來(lái)看,至少有數(shù)據(jù)來(lái)源主體、數(shù)據(jù)控制者、數(shù)據(jù)需求方三方主體可以主張相應(yīng)的權(quán)利。領(lǐng)域數(shù)據(jù)權(quán)利方缺乏獲得合理回報(bào)的收益分配機(jī)制,數(shù)據(jù)要素供給激勵(lì)機(jī)制未完善,導(dǎo)致數(shù)據(jù)供給意愿不強(qiáng)。第二,領(lǐng)域數(shù)據(jù)可能包含個(gè)人數(shù)據(jù)、重要數(shù)據(jù)等,數(shù)據(jù)交易存在多層法律風(fēng)險(xiǎn)。如地理數(shù)據(jù)關(guān)系國(guó)家主權(quán)、安全和發(fā)展利益。[38]領(lǐng)域數(shù)據(jù)交易中上下游均需承擔(dān)更為嚴(yán)格的安全保護(hù)義務(wù),呈現(xiàn)責(zé)任鏈條廣泛連帶、合規(guī)嚴(yán)格約束的特性。[39]
領(lǐng)域數(shù)據(jù)交易規(guī)范體系不健全,難以形成合力推動(dòng)領(lǐng)域數(shù)據(jù)經(jīng)濟(jì)的發(fā)展。實(shí)踐中,領(lǐng)域數(shù)據(jù)交易模式主要為一對(duì)一、點(diǎn)對(duì)點(diǎn)的場(chǎng)外商談模式,交易方式包括直接轉(zhuǎn)移數(shù)據(jù)及API接口調(diào)用,交易規(guī)則主要為交易雙方自主商議約定。場(chǎng)內(nèi)場(chǎng)外相結(jié)合的統(tǒng)一交易制度規(guī)范的缺位,給交易市場(chǎng)的進(jìn)一步發(fā)展造成了極大阻礙。第一,領(lǐng)域數(shù)據(jù)定價(jià)機(jī)制的缺失,交易市場(chǎng)的規(guī)范化、標(biāo)準(zhǔn)化發(fā)展無(wú)法推進(jìn)。當(dāng)前數(shù)據(jù)市場(chǎng)主要的定價(jià)機(jī)制為數(shù)據(jù)供應(yīng)方自主定價(jià)以及供需雙方協(xié)議定價(jià),難以準(zhǔn)確衡量數(shù)據(jù)應(yīng)有價(jià)值[40]。領(lǐng)域數(shù)據(jù)權(quán)利方在逐利性的驅(qū)動(dòng)下可能出現(xiàn)價(jià)格欺詐、價(jià)格歧視、價(jià)格壟斷等不當(dāng)定價(jià)行為,需建立自主高效的數(shù)據(jù)定價(jià)體系,規(guī)制不當(dāng)數(shù)據(jù)定價(jià)行為,維護(hù)領(lǐng)域數(shù)據(jù)交易市場(chǎng)的公平和秩序。第二,領(lǐng)域數(shù)據(jù)交易質(zhì)量標(biāo)準(zhǔn)不一,交易市場(chǎng)的有序化、實(shí)踐化無(wú)法達(dá)成。當(dāng)前,領(lǐng)域數(shù)據(jù)交易中,領(lǐng)域數(shù)據(jù)類型、載體、呈現(xiàn)形式等均無(wú)統(tǒng)一界定標(biāo)準(zhǔn)。領(lǐng)域數(shù)據(jù)格式不規(guī)范、內(nèi)容不完整的問(wèn)題容易導(dǎo)致整個(gè)交易市場(chǎng)的混亂局面,影響數(shù)據(jù)交易的順利進(jìn)行。
訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)建設(shè)的制度協(xié)調(diào)與規(guī)則應(yīng)對(duì)
通過(guò)司法判例明確網(wǎng)絡(luò)數(shù)據(jù)來(lái)源合法性認(rèn)定條件。由于人工智能訓(xùn)練數(shù)據(jù)具有數(shù)量大、規(guī)模廣、價(jià)值密度低等特征,傳統(tǒng)的數(shù)據(jù)購(gòu)買模式無(wú)法適應(yīng)模型開發(fā)者對(duì)數(shù)據(jù)規(guī)?;玫男枨?。目前由內(nèi)容平臺(tái)代理的著作權(quán)內(nèi)容多為單獨(dú)具有使用價(jià)值的作品,不包括用戶生成的海量數(shù)據(jù),網(wǎng)絡(luò)數(shù)據(jù)才是人工智能訓(xùn)練的主要材料,應(yīng)通過(guò)司法判例進(jìn)一步明確網(wǎng)絡(luò)數(shù)據(jù)來(lái)源合法性認(rèn)定條件。
首先,進(jìn)一步明確網(wǎng)絡(luò)數(shù)據(jù)可爬取范圍。網(wǎng)絡(luò)數(shù)據(jù)的可爬取范圍應(yīng)結(jié)合爬取客體、技術(shù)手段、行為目的三個(gè)方面進(jìn)行考量。爬取客體上,對(duì)于公開數(shù)據(jù)、半公開數(shù)據(jù)、非公開數(shù)據(jù)的保護(hù)程度應(yīng)有所不同。[41]網(wǎng)絡(luò)數(shù)據(jù)爬取應(yīng)嚴(yán)格限定于對(duì)公開數(shù)據(jù)的訪問(wèn),具體包括由政府、學(xué)術(shù)界和商業(yè)機(jī)構(gòu)出于促進(jìn)知識(shí)共享和技術(shù)創(chuàng)新的目的而開放的數(shù)據(jù)。技術(shù)手段上,爬取技術(shù)的設(shè)計(jì)和應(yīng)用應(yīng)恪守非侵入性原則,尊重并遵循網(wǎng)站的“爬蟲協(xié)議”和用戶協(xié)議,避免任何形式的技術(shù)規(guī)避行為。行為目的上,網(wǎng)絡(luò)數(shù)據(jù)爬取的行為必須服務(wù)于正當(dāng)目的,對(duì)于非商業(yè)性數(shù)據(jù)的爬取,應(yīng)以增進(jìn)公共利益為目標(biāo)。因此,基于科學(xué)研究應(yīng)用等大模型構(gòu)建信息基礎(chǔ)設(shè)施時(shí)是否應(yīng)適當(dāng)豁免,應(yīng)在司法裁判中予以充分考量。
其次,應(yīng)在司法判例中審慎判斷網(wǎng)絡(luò)數(shù)據(jù)爬取構(gòu)成競(jìng)爭(zhēng)性使用的條件。判斷大模型訓(xùn)練是否構(gòu)成競(jìng)爭(zhēng)性使用,需明確網(wǎng)絡(luò)平臺(tái)對(duì)其數(shù)據(jù)享有的權(quán)益。依據(jù)網(wǎng)絡(luò)平臺(tái)對(duì)數(shù)據(jù)的投入程度,可將平臺(tái)上的數(shù)據(jù)分為“平臺(tái)限定提供的數(shù)據(jù)”及“用戶生成的網(wǎng)頁(yè)數(shù)據(jù)”兩類,前者是平臺(tái)企業(yè)對(duì)其所收集的數(shù)據(jù)進(jìn)行脫敏、過(guò)濾、格式調(diào)整、加密、篩選等適度加工之后,采用技術(shù)手段進(jìn)行控制并僅向特定人提供的商業(yè)化數(shù)據(jù);后者是用戶直接提交給平臺(tái),或者用戶在使用平臺(tái)過(guò)程中生成,直接展示在網(wǎng)頁(yè)上的數(shù)據(jù)。[42]對(duì)于前者,可能構(gòu)成企業(yè)數(shù)據(jù)財(cái)產(chǎn),對(duì)其未經(jīng)授權(quán)的獲取、披露和使用應(yīng)當(dāng)承擔(dān)相關(guān)責(zé)任。而后者應(yīng)當(dāng)重點(diǎn)判斷其“破壞性利用”的構(gòu)成、損害顯著和實(shí)質(zhì)性、實(shí)質(zhì)性替代與否以及用戶權(quán)益。
最后,由政府協(xié)調(diào)設(shè)立公共訓(xùn)練數(shù)據(jù)池、公共訓(xùn)練數(shù)據(jù)場(chǎng),承擔(dān)生成式人工智能大模型訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)的數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)責(zé)任?,F(xiàn)有語(yǔ)料庫(kù)總體覆蓋面和規(guī)模依然不足,受制于數(shù)據(jù)孤島、數(shù)據(jù)污染問(wèn)題,庫(kù)內(nèi)數(shù)據(jù)的采集依舊面臨來(lái)源稀缺的困境。語(yǔ)料形式缺乏統(tǒng)一標(biāo)準(zhǔn),不同的處理標(biāo)準(zhǔn)導(dǎo)致數(shù)據(jù)集語(yǔ)料類型及結(jié)構(gòu)差異明顯,不利于集約化管理,知識(shí)產(chǎn)權(quán)和數(shù)據(jù)安全合規(guī)方面的負(fù)擔(dān)同樣延緩了語(yǔ)料庫(kù)合法化建設(shè)步伐。在政府的示范引導(dǎo)下各方協(xié)同建設(shè)共享數(shù)據(jù)池,以助力數(shù)據(jù)語(yǔ)料庫(kù)迭代優(yōu)化是中國(guó)企業(yè)與行業(yè)發(fā)展的共同訴求。
協(xié)調(diào)版權(quán)規(guī)則確定線下數(shù)據(jù)使用合理性制度邊界。傳統(tǒng)著作權(quán)“事前授權(quán)、使用付費(fèi)”的交易模式難以滿足人工智能時(shí)代海量學(xué)習(xí)的需求。“事前授權(quán)”容易導(dǎo)致數(shù)據(jù)交易流程的冗雜以及交易效率的低下,“使用付費(fèi)”容易產(chǎn)生包括數(shù)據(jù)獲取的識(shí)別成本以及數(shù)據(jù)交易的談判成本在內(nèi)的過(guò)高交易成本[43],這要求版權(quán)規(guī)則進(jìn)行突破協(xié)調(diào)以適配人工智能時(shí)代高價(jià)值數(shù)據(jù)獲取、流通、使用的需要。
第一,構(gòu)建訓(xùn)練數(shù)據(jù)合理使用制度。在人工智能預(yù)訓(xùn)練階段,可考慮認(rèn)定利用版權(quán)作品進(jìn)行訓(xùn)練原則上構(gòu)成合理使用。首先,就技術(shù)原理而言,大模型或是通過(guò)對(duì)特定類型作品的風(fēng)格、要素、體裁等公有領(lǐng)域的“思想”進(jìn)行學(xué)習(xí),進(jìn)而生成類似作品[44];或是對(duì)既有作品進(jìn)行具備“非特定性”的非表達(dá)性使用,進(jìn)而創(chuàng)造新的數(shù)據(jù)價(jià)值[45],其均非《中華人民共和國(guó)著作權(quán)法》應(yīng)當(dāng)規(guī)制的作品使用行為;其次,就社會(huì)效益而言,大模型運(yùn)用高質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練具有顯著的公共利益價(jià)值,對(duì)發(fā)揮數(shù)據(jù)的公共價(jià)值、發(fā)展生產(chǎn)力、增進(jìn)社會(huì)福祉、提升國(guó)際競(jìng)爭(zhēng)力等有著顯著正向影響[46],將大模型訓(xùn)練納入合理使用范疇符合《中華人民共和國(guó)著作權(quán)法》激勵(lì)創(chuàng)新的制度目的;最后,就市場(chǎng)影響而言,大模型的輸出結(jié)果不必然對(duì)原訓(xùn)練作品的市場(chǎng)份額產(chǎn)生沖擊,因大模型具備通用能力和泛化能力,其應(yīng)用場(chǎng)景不局限于原作品的市場(chǎng)定位。但是,合理使用制度的構(gòu)建并不意味著對(duì)大模型訓(xùn)練的版權(quán)侵權(quán)全面豁免,對(duì)基于科學(xué)研究目的的大模型應(yīng)當(dāng)允許免費(fèi)合理使用版權(quán)數(shù)據(jù)進(jìn)行訓(xùn)練,而對(duì)于商業(yè)應(yīng)用等大模型則應(yīng)當(dāng)針對(duì)具體個(gè)案全面權(quán)衡其原理、價(jià)值、市場(chǎng)影響等要素,綜合判斷其合法性。
第二,審慎認(rèn)定訓(xùn)練數(shù)據(jù)版權(quán)侵權(quán)及責(zé)任承擔(dān)方式。當(dāng)前,多種場(chǎng)景爭(zhēng)議下的司法判例的落實(shí)或?qū)⒊蔀槔迩逵?xùn)練數(shù)據(jù)合理使用邊界的關(guān)鍵。我國(guó)現(xiàn)有判例認(rèn)為,若案涉被侵權(quán)作品享有較高知名度,可推定具備接觸可能性,且人工智能模型生成結(jié)果在多個(gè)關(guān)鍵特征上與被侵權(quán)作品具有高度相似性,即可認(rèn)定為實(shí)質(zhì)性相似而構(gòu)成復(fù)制權(quán)和改編權(quán)侵權(quán)??梢?,“實(shí)質(zhì)性相似”將是明確大模型訓(xùn)練數(shù)據(jù)使用合理性的邊界,法律應(yīng)當(dāng)保護(hù)的是大模型在已有作品基礎(chǔ)上的創(chuàng)新,而非對(duì)既有作品缺乏創(chuàng)造性的剽竊。對(duì)于大模型訓(xùn)練數(shù)據(jù)侵權(quán)的救濟(jì)手段,應(yīng)當(dāng)秉持審慎立場(chǎng),綜合考慮大模型的應(yīng)用價(jià)值與對(duì)權(quán)利人的實(shí)際損害。一方面,應(yīng)當(dāng)盡量避免要求大模型開發(fā)者刪除涉嫌侵權(quán)的訓(xùn)練數(shù)據(jù),以避免導(dǎo)致大模型整體能力的不可控下降,從而給相關(guān)產(chǎn)業(yè)帶來(lái)過(guò)高負(fù)擔(dān);另一方面,應(yīng)當(dāng)結(jié)合被侵權(quán)作品的知名度與市場(chǎng)地位、侵權(quán)方的應(yīng)對(duì)措施、侵權(quán)行為的具體影響范圍、對(duì)產(chǎn)業(yè)發(fā)展的潛在影響等予以認(rèn)定,而不應(yīng)當(dāng)過(guò)高地認(rèn)定實(shí)際損害,以免為人工智能模型創(chuàng)新與應(yīng)用施加難以負(fù)擔(dān)的法律成本。
第三,完善版權(quán)作品相關(guān)方利益分配機(jī)制。一方面,允許版權(quán)方行使人工智能訓(xùn)練拒絕權(quán)將有助于維護(hù)版權(quán)方合法權(quán)益。另一方面,人工智能開發(fā)者也可主動(dòng)采取措施令版權(quán)方參與利益分配。OpenAI開展版權(quán)屏障計(jì)劃,將介入并為使用其產(chǎn)品的企業(yè)提供版權(quán)侵權(quán)辯護(hù),并承諾承擔(dān)客戶因應(yīng)對(duì)相關(guān)知識(shí)產(chǎn)權(quán)訴訟而產(chǎn)生的法律費(fèi)用。[47]在這一模式下,人工智能模型開發(fā)者作為大模型應(yīng)用的獲益者承擔(dān)相應(yīng)責(zé)任,有助于實(shí)現(xiàn)版權(quán)方和使用者等主體間的利益平衡,進(jìn)而推動(dòng)版權(quán)保護(hù)與技術(shù)發(fā)展的共贏。
構(gòu)建開放機(jī)制滿足公共數(shù)據(jù)參與語(yǔ)料庫(kù)建設(shè)需求。構(gòu)建層次化的公共數(shù)據(jù)開放機(jī)制有利于推動(dòng)公共數(shù)據(jù)深度參與人工智能訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)建設(shè),使公共數(shù)據(jù)的開發(fā)利用價(jià)值在模型訓(xùn)練過(guò)程中得到充分挖掘。不同類型、價(jià)值的公共數(shù)據(jù)對(duì)應(yīng)不同的開放程度,公共數(shù)據(jù)開放機(jī)制可分為完全開放、有限開放與授權(quán)運(yùn)營(yíng)三個(gè)層次。
第一,構(gòu)建政府主導(dǎo)的公共數(shù)據(jù)完全開放機(jī)制。公共數(shù)據(jù)完全開放機(jī)制具有獲取方式的無(wú)償性、開放數(shù)據(jù)的原始化、獲取對(duì)象的不特定性等特征。具體而言,公共數(shù)據(jù)完全開放機(jī)制適用于不涉及國(guó)家秘密、商業(yè)秘密、個(gè)人隱私及敏感個(gè)人信息的原始數(shù)據(jù),具體包括信用、交通、衛(wèi)生、就業(yè)、教育等領(lǐng)域的原始數(shù)據(jù)開放。[48]公共數(shù)據(jù)完全開放機(jī)制應(yīng)當(dāng)由政府主導(dǎo),建立公共數(shù)據(jù)開放目錄以確定開放范圍,通過(guò)一體化、集中化的國(guó)家數(shù)據(jù)開放平臺(tái)匯集各省、市政府職能部門的各類原始數(shù)據(jù),以直接獲取或下載的方式免費(fèi)向不特定的社會(huì)公眾開放,實(shí)現(xiàn)原始數(shù)據(jù)與語(yǔ)料庫(kù)之間的無(wú)障礙對(duì)接。
需要注意的是,原始數(shù)據(jù)雖然具有較高的開發(fā)利用價(jià)值,但也存在較大的不確定性和安全風(fēng)險(xiǎn)。[49]政府在履行公共數(shù)據(jù)開放義務(wù)的同時(shí),還應(yīng)當(dāng)建立公共數(shù)據(jù)開放安全風(fēng)險(xiǎn)防控機(jī)制,采取技術(shù)、管理措施防范原始數(shù)據(jù)安全風(fēng)險(xiǎn),具體包括開放前的個(gè)人數(shù)據(jù)去標(biāo)識(shí)化處理、開放平臺(tái)的運(yùn)營(yíng)技術(shù)維護(hù)、開放過(guò)程中的動(dòng)態(tài)安全監(jiān)測(cè)以及開放后的安全事件應(yīng)急預(yù)案等。
第二,構(gòu)建特定對(duì)象的公共數(shù)據(jù)有限開放機(jī)制。公共數(shù)據(jù)完全開放機(jī)制雖然能夠?yàn)檎Z(yǔ)料庫(kù)建設(shè)提供一定量免費(fèi)的原始數(shù)據(jù)資源,但面向全體社會(huì)公眾的無(wú)門檻開放必然會(huì)限制語(yǔ)料庫(kù)吸納更加優(yōu)質(zhì)的公共數(shù)據(jù)資源。未來(lái),通用大模型市場(chǎng)或?qū)⒊尸F(xiàn)寡頭競(jìng)爭(zhēng)格局,面向垂直領(lǐng)域的行業(yè)大模型將成為大模型產(chǎn)業(yè)競(jìng)爭(zhēng)的主要領(lǐng)域。[50]與“無(wú)數(shù)不用”的通用大模型訓(xùn)練不同,行業(yè)大模型訓(xùn)練需要更加高質(zhì)量、專業(yè)化的公共數(shù)據(jù)供給。這些數(shù)據(jù)的數(shù)據(jù)量和敏感性不同于完全開放的公共數(shù)據(jù),對(duì)數(shù)據(jù)利用主體自身的數(shù)據(jù)安全管理水平、技術(shù)能力有著較高的要求。[51]公共數(shù)據(jù)有限開放機(jī)制以主體的準(zhǔn)入資格審核為前提,通過(guò)與行政機(jī)關(guān)簽署行政協(xié)議的方式獲取特定領(lǐng)域的公共數(shù)據(jù)資源。一方面,能夠滿足垂直領(lǐng)域的大模型企業(yè)對(duì)領(lǐng)域數(shù)據(jù)的特殊需求;另一方面,能夠防范優(yōu)質(zhì)公共數(shù)據(jù)的泄露、濫用、遭受攻擊等安全風(fēng)險(xiǎn)。
第三,構(gòu)建面向市場(chǎng)的公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)機(jī)制。區(qū)別于前兩種直接的公共數(shù)據(jù)開放機(jī)制,公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)是一種間接開放機(jī)制,由行政機(jī)關(guān)授權(quán)特定運(yùn)營(yíng)主體對(duì)公共數(shù)據(jù)進(jìn)行加工,從而形成數(shù)據(jù)產(chǎn)品與服務(wù)提供給市場(chǎng)和社會(huì)。[52]公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)有利于激發(fā)市場(chǎng)運(yùn)營(yíng)主體活力,釋放公共數(shù)據(jù)的經(jīng)濟(jì)價(jià)值,提升公共數(shù)據(jù)資源配置效率,實(shí)現(xiàn)數(shù)據(jù)要素市場(chǎng)的供需匹配。目前,公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)實(shí)踐尚處于探索階段,主要存在行業(yè)主導(dǎo)、區(qū)域一體化以及場(chǎng)景牽引三種公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)模式。[53]從促進(jìn)人工智能大模型創(chuàng)新研發(fā)的角度來(lái)看,基于特定應(yīng)用場(chǎng)景授權(quán)不同運(yùn)營(yíng)主體的場(chǎng)景牽引模式更有利于實(shí)現(xiàn)領(lǐng)域數(shù)據(jù)供需方之間的精準(zhǔn)匹配,進(jìn)一步推動(dòng)金融、醫(yī)療、教育、自動(dòng)駕駛等領(lǐng)域的垂類大模型訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)建設(shè)。
協(xié)同促進(jìn)跨領(lǐng)域數(shù)據(jù)流通交易規(guī)則建立供給激勵(lì)。面向人工智能創(chuàng)新應(yīng)用的新時(shí)代,我國(guó)數(shù)據(jù)交易市場(chǎng)也應(yīng)轉(zhuǎn)型突破,適應(yīng)人工智能產(chǎn)業(yè)獲取訓(xùn)練數(shù)據(jù)的現(xiàn)實(shí)需求。就交易平臺(tái)而言,可針對(duì)人工智能訓(xùn)練市場(chǎng),將現(xiàn)有的通用數(shù)據(jù)交易所轉(zhuǎn)型為“AI數(shù)據(jù)交易合同”模式,為企業(yè)訓(xùn)練人工智能提供定制化的訓(xùn)練數(shù)據(jù)。就交易標(biāo)準(zhǔn)而言,相關(guān)市場(chǎng)主體和監(jiān)管部門可共同規(guī)范訓(xùn)練語(yǔ)料的標(biāo)注標(biāo)準(zhǔn),便于語(yǔ)料數(shù)據(jù)的交易流通。就合同內(nèi)容而言,人工智能訓(xùn)練方需要遵循誠(chéng)實(shí)信用原則,明確告知數(shù)據(jù)提供方相關(guān)數(shù)據(jù)的用途并獲得授權(quán),避免因超出授權(quán)范圍使用數(shù)據(jù)而面臨違約風(fēng)險(xiǎn)。
“數(shù)據(jù)二十條”明確提出,“完善和規(guī)范數(shù)據(jù)流通規(guī)則,構(gòu)建促進(jìn)使用和流通、場(chǎng)內(nèi)場(chǎng)外相結(jié)合的交易制度體系,規(guī)范引導(dǎo)場(chǎng)外交易,培育壯大場(chǎng)內(nèi)交易”。現(xiàn)階段,數(shù)據(jù)交易市場(chǎng)“內(nèi)冷外熱”,引導(dǎo)場(chǎng)外數(shù)據(jù)交易進(jìn)場(chǎng)交易,需建立健全場(chǎng)內(nèi)數(shù)據(jù)交易規(guī)則,為跨領(lǐng)域數(shù)據(jù)流通交易掃清制度障礙。
一是數(shù)據(jù)確權(quán)規(guī)則。首先,探索建立數(shù)據(jù)資產(chǎn)登記確權(quán)制度。數(shù)據(jù)資產(chǎn)登記能夠推動(dòng)跨領(lǐng)域的數(shù)據(jù)資源向數(shù)據(jù)資產(chǎn)的轉(zhuǎn)化,發(fā)揮數(shù)據(jù)資產(chǎn)登記的證明功能,消除跨領(lǐng)域企業(yè)入場(chǎng)門檻。其次,規(guī)范數(shù)據(jù)資產(chǎn)價(jià)值評(píng)估體系。數(shù)據(jù)資產(chǎn)價(jià)值受數(shù)據(jù)質(zhì)量、時(shí)效、類型等多種因素影響,價(jià)值不確定性增加了評(píng)估難度,應(yīng)細(xì)化評(píng)估指標(biāo),綜合運(yùn)用風(fēng)險(xiǎn)評(píng)估法、成本效益分析法等多種價(jià)值評(píng)估方法,構(gòu)建專業(yè)化、領(lǐng)域化的價(jià)值評(píng)估模型,確保跨領(lǐng)域數(shù)據(jù)資產(chǎn)價(jià)值評(píng)估的客觀性。最后,完善數(shù)據(jù)資產(chǎn)入表制度。2023年8月,財(cái)政部印發(fā)《企業(yè)數(shù)據(jù)資源相關(guān)會(huì)計(jì)處理暫行規(guī)定》,明確數(shù)據(jù)資產(chǎn)可以列入企業(yè)財(cái)務(wù)報(bào)表之中。目前,數(shù)據(jù)資產(chǎn)入表還處于探索實(shí)踐初期,可通過(guò)制定出臺(tái)數(shù)據(jù)資產(chǎn)入表的相關(guān)規(guī)則指引、指南,進(jìn)一步引導(dǎo)企業(yè)完成數(shù)據(jù)資產(chǎn)入表工作。
二是數(shù)據(jù)定價(jià)規(guī)則。解決數(shù)據(jù)交易糾紛的關(guān)鍵在于確定合理的數(shù)據(jù)定價(jià)規(guī)則,但數(shù)據(jù)定價(jià)目前尚未形成統(tǒng)一的規(guī)則和標(biāo)準(zhǔn)。鑒于應(yīng)用場(chǎng)景對(duì)數(shù)據(jù)市場(chǎng)價(jià)值的重大影響,可以考慮設(shè)置不同行業(yè)、不同場(chǎng)景的數(shù)據(jù)定價(jià)機(jī)制,盡可能降低由于交易雙方信息不對(duì)稱導(dǎo)致的價(jià)格歧視風(fēng)險(xiǎn)。[54]數(shù)據(jù)交易的具體價(jià)格可以結(jié)合數(shù)據(jù)資產(chǎn)價(jià)值評(píng)估結(jié)果進(jìn)行確定,此外,例如《深圳市數(shù)據(jù)交易管理暫行辦法》第十九條第三款提出的數(shù)據(jù)質(zhì)量、數(shù)據(jù)樣本一致性、數(shù)據(jù)計(jì)算貢獻(xiàn)、數(shù)據(jù)業(yè)務(wù)應(yīng)用四個(gè)維度可以作為數(shù)據(jù)定價(jià)的考量因素。計(jì)價(jià)方式上,結(jié)合數(shù)據(jù)交易所實(shí)踐來(lái)看,可采取按次計(jì)費(fèi)、按時(shí)長(zhǎng)計(jì)費(fèi)、固定價(jià)格或者面議價(jià)格等多種計(jì)價(jià)方式。
三是收益分配規(guī)則。“數(shù)據(jù)二十條”中提出,數(shù)據(jù)要素由市場(chǎng)評(píng)價(jià)貢獻(xiàn)、按貢獻(xiàn)決定報(bào)酬,并按照“誰(shuí)投入、誰(shuí)貢獻(xiàn)、誰(shuí)受益”的原則,著重保護(hù)數(shù)據(jù)要素各參與方的投入產(chǎn)出收益。數(shù)據(jù)流通交易過(guò)程中主要涉及數(shù)據(jù)提供者、數(shù)據(jù)使用者、數(shù)據(jù)交易平臺(tái)三方主體,目前數(shù)據(jù)要素市場(chǎng)中的收益分配通常是數(shù)據(jù)交易平臺(tái)與數(shù)據(jù)交易雙方協(xié)商的結(jié)果,忽視了原始數(shù)據(jù)生產(chǎn)者對(duì)數(shù)據(jù)要素生產(chǎn)的貢獻(xiàn)。原始數(shù)據(jù)為數(shù)據(jù)要素的形成提供了原始材料,是數(shù)據(jù)要素形成的基礎(chǔ),應(yīng)當(dāng)將原始數(shù)據(jù)生產(chǎn)者作為收益分配主體之一,通過(guò)智能合約等方案提升原始數(shù)據(jù)生產(chǎn)者參與數(shù)據(jù)要素分配的可行性。[55]
四是供給激勵(lì)規(guī)則。加強(qiáng)數(shù)據(jù)要素供給激勵(lì)是“數(shù)據(jù)二十條”提出的明確要求,數(shù)據(jù)確權(quán)是激勵(lì)數(shù)據(jù)流通交易的有效法律手段,除此之外,還應(yīng)探索經(jīng)濟(jì)、技術(shù)、管理等多樣化的數(shù)據(jù)要素供給激勵(lì)舉措。目前,已經(jīng)有多家數(shù)據(jù)交易平臺(tái)開始針對(duì)不同的數(shù)據(jù)要素市場(chǎng)主體推出激勵(lì)方案。例如,深圳數(shù)據(jù)交易所針對(duì)企業(yè)建立的數(shù)據(jù)交易誠(chéng)信合規(guī)激勵(lì)機(jī)制、湖南大數(shù)據(jù)交易所針對(duì)數(shù)據(jù)交易雙方和數(shù)據(jù)經(jīng)濟(jì)商等主體推出的百萬(wàn)交易激勵(lì)計(jì)劃、鄭州數(shù)據(jù)交易中心針對(duì)數(shù)據(jù)經(jīng)紀(jì)人推出的千萬(wàn)激勵(lì)計(jì)劃等。就跨領(lǐng)域數(shù)據(jù)交易流通而言,應(yīng)結(jié)合不同領(lǐng)域的市場(chǎng)需求,探索有針對(duì)性的供給激勵(lì)規(guī)則。
(本文系國(guó)家社會(huì)科學(xué)基金重點(diǎn)項(xiàng)目“生成式人工智能的法律定位與分層治理研究”的階段性研究成果,項(xiàng)目編號(hào):23AFX009,課題組成員對(duì)本文亦有貢獻(xiàn))
注釋
[1][2][3]J. Wei, Y. Tay and R. Bommasani et al., "Emergent Abilities of Large Language Models," Transactions on Machine Learning Research, 2022, 8.
[4]姚佳:《人工智能的訓(xùn)練數(shù)據(jù)制度——以“智能涌現(xiàn)”為觀察視角》,《貴州社會(huì)科學(xué)》,2024年第2期。
[5]J. Brown, "Comparing GPT–3 vs GPT–4: An AI Expert's In–Depth Guide," https://www.33rdsquare.com/comparing-gpt-3-vs-gpt-4-an-ai-experts-in-depth-guide/.
[6][10][19][22]阿里云智能集團(tuán)、數(shù)字中國(guó)研究院(福建):《大模型訓(xùn)練數(shù)據(jù)白皮書》,阿里研究院,2024年5月24日。
[7]《大模型潮即將耗盡全宇宙文本,高質(zhì)量數(shù)據(jù)從哪里來(lái)?》,2023年7月17日,https://www.thepaper.cn/newsDetail_forward_23865563。
[8]羅云鵬:《大模型發(fā)展亟需高質(zhì)量“教材”相伴》,《科技日?qǐng)?bào)》,2024年1月15日,第6版。
[9]HIMSS, "Implementing AI and ML From the Ground Up Case Study," https://www.himss.org/resources/implementing-ai-and-ml-ground-case-study.
[11]S. Yin et al., "A Survey on Multimodal Large Language Models," IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024, 4.
[12]OpenAI, "CLIP: Connecting Text and Images," https://openai.com/index/clip/.
[13]楊維鎧等:《基于可視分析的訓(xùn)練數(shù)據(jù)質(zhì)量提升綜述》,《計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào)》,2023年第11期。
[14]T. Sun, A. Gaut, S. Tang et al., "Mitigating Gender Bias in Natural Language Processing," Annual Meeting of the Association for Computational Linguistics, 2019.
[15]綠盟科技:《安全行業(yè)大模型SecLLM技術(shù)白皮書》,2023年9月1日。
[16]D. Huynh, J. Hardouin, "PoisonGPT: How We Hid a Lobotomized LLM on Hugging Face to Spread Fake News," https://colab.research.google.com/drive/16RPph6SobDLhisNzA5azcP-0uMGGq10R?usp=sharing&ref=blog.mithrilsecurity.io.
[17]L. Huang, W. Yu, W. Ma et al., "A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions," arXiv:2311.05232, 2023.
[18]微軟亞洲研究院:《價(jià)值觀羅盤:如何讓大模型與人類價(jià)值觀對(duì)齊?》,2024年4月11日。
[20]W3Techs實(shí)時(shí)統(tǒng)計(jì)信息:https://w3techs.com/technologies/overview/content_language,2024年6月18日。
[21]IDC, Global DataSphere 2023, IDC Published, 18 May 2023.
[23]胡凌:《論地方立法中公共數(shù)據(jù)開放的性質(zhì)》,《地方立法研究》,2019年第03期第4輯。
[24]Verge, "ByteDance is Secretly Using OpenAI's Tech to Build a Competitor," Verge Tech, 16 December 2023.
[25]K. Lee, A. F. Cooper, J. Grimmelman etc., "AI and Law: the Next Generation–An Explainer Series," GenLaw, 6 July 2023.
[26]R. Morrison, "The Majority of AI Training Data Will Be Synthetic by Next Year, Says Gartner," https://techmonitor.ai/technology/ai-and-automation/ai-synthetic-data-edge-computing-gartner, 2 August 2023.
[27]支振鋒:《生成式人工智能大模型的信息內(nèi)容治理》,《政法論壇》,2023年第4期。
[28]參見北京人工智能高質(zhì)量數(shù)據(jù)集服務(wù)平臺(tái),http://dataset.baiia.org.cn/,最后訪問(wèn)于2024年6月18日。
[29]復(fù)旦大學(xué)數(shù)字與移動(dòng)治理實(shí)驗(yàn)室:《中國(guó)地方公共數(shù)據(jù)開放利用報(bào)告——省域(2023年度)》,http://ifopendata.fudan.edu.cn/report。
[30]劉金瑞:《生成式人工智能大模型的新型風(fēng)險(xiǎn)與規(guī)制框架》,《行政法學(xué)研究》,2024年第2期。
[31]中國(guó)互聯(lián)網(wǎng)信息中心:《第53次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,2024年3月29日。
[32]楊華權(quán)、曲三強(qiáng):《論爬蟲協(xié)議的法律性質(zhì)》,《法律適用》,2013年第4期。
[33]億歐智庫(kù):《2023中國(guó)信息與數(shù)據(jù)孤島分析報(bào)告》,2023年11月21日。
[34]最高人民法院:《知識(shí)產(chǎn)權(quán)侵權(quán)司法大數(shù)據(jù)專題報(bào)告》,2024年6月18日,https://www.court.gov.cn/upload/file/2019/11/22/11/20/20191122112018_45474.pdf。
[35]全球唱片協(xié)會(huì):《2018全球音樂(lè)報(bào)告》,2024年6月18日,https://www.ifpi.org/ifpi-global-music-report-2018/。
[36][43]張平:《人工智能生成內(nèi)容著作權(quán)合法性的制度難題及其解決路徑》,《法律科學(xué)(西北政法大學(xué)學(xué)報(bào))》,2024年第3期。
[37]K. Armstrong, "Tesla Surpasses 150 Million Miles Driven with FSD Beta," https://www.notateslaapp.com/news/1360/tesla-surpasses-150-million-miles-driven-with-fsd-beta.
[38]參見浙江省湖州市中級(jí)人民法院(2021)浙05刑終87號(hào)判決書。
[39]參見國(guó)家互聯(lián)網(wǎng)信息辦公室:《網(wǎng)絡(luò)數(shù)據(jù)安全管理?xiàng)l例(征求意見稿)》第四章,https://www.cac.gov.cn/2021-11/14/c_1638501991577898.htm。
[40]許中緣、鄭煌杰:《數(shù)據(jù)要素賦能新質(zhì)生產(chǎn)力:內(nèi)在機(jī)理、現(xiàn)實(shí)障礙與法治進(jìn)路》,《上海經(jīng)濟(jì)研究》,2024年第5期。
[41]張軍強(qiáng):《人工智能大模型數(shù)據(jù)爬取行為的正當(dāng)性認(rèn)定》,《中國(guó)知識(shí)產(chǎn)權(quán)》,2024年。
[42]周樨平:《數(shù)據(jù)爬取的不正當(dāng)競(jìng)爭(zhēng)認(rèn)定規(guī)則研究》,《南大法學(xué)》,2023年第2期。
[44]徐小奔、楊依楠:《論人工智能深度學(xué)習(xí)中著作權(quán)的合理使用》,《交大法學(xué)》,2019年第3期。
[45]劉曉春:《生成式人工智能數(shù)據(jù)訓(xùn)練中的“非作品性使用”及其合法性證成》,《法學(xué)論壇》,2024年第3期。
[46]丁曉東:《論人工智能促進(jìn)型的數(shù)據(jù)制度》,《中國(guó)法律評(píng)論》,2023年第6期。
[47]OpenAI, "New Models and Developer Products Announced at DevDay," https://openai.com/index/new-models-and-developer-products-announced-at-devday/.
[48]《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》中提出,“率先在信用、交通、醫(yī)療、衛(wèi)生、就業(yè)、社保、地理、文化、教育、科技、資源、農(nóng)業(yè)、環(huán)境、安監(jiān)、金融、質(zhì)量、統(tǒng)計(jì)、氣象、海洋、企業(yè)登記監(jiān)管等重要領(lǐng)域?qū)崿F(xiàn)公共數(shù)據(jù)資源合理適度向社會(huì)開放”。
[49]宋爍:《構(gòu)建以授權(quán)運(yùn)營(yíng)為主渠道的公共數(shù)據(jù)開放利用機(jī)制》,《法律科學(xué)(西北政法大學(xué)學(xué)報(bào))》,2023年第1期。
[50]黃哲:《大模型價(jià)格戰(zhàn)背后的邏輯與真相》,《中國(guó)計(jì)算機(jī)報(bào)》,2024年6月10日,第10版。
[51]常江:《公共數(shù)據(jù)開放立法原則反思和開放路徑構(gòu)建》,《華東理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)》,2022年第5期。
[52]馬顏昕:《公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)的類型構(gòu)建與制度展開》,《中外法學(xué)》,2023年第2期。
[53]行業(yè)主導(dǎo)模式,即由特定行業(yè)主管部門授權(quán)運(yùn)營(yíng)主體承擔(dān)本領(lǐng)域公共數(shù)據(jù)運(yùn)營(yíng);區(qū)域一體化模式,即由地區(qū)數(shù)據(jù)管理機(jī)構(gòu)整體授權(quán)運(yùn)營(yíng)主體開展區(qū)域內(nèi)各類公共數(shù)據(jù)的市場(chǎng)運(yùn)營(yíng);場(chǎng)景牽引模式,即圍繞特定場(chǎng)景的應(yīng)用需求,在公共數(shù)據(jù)資源統(tǒng)籌管理基礎(chǔ)上,基于特定應(yīng)用場(chǎng)景將數(shù)據(jù)分類授權(quán)給不同的運(yùn)營(yíng)主體。參見孫清白:《公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)營(yíng)利性與公益性的沖突及其制度協(xié)調(diào)》,《行政法學(xué)研究》,2024第3期。
[54]趙精武、周瑞玨:《數(shù)據(jù)要素市場(chǎng)如何進(jìn)行數(shù)據(jù)定價(jià)》,《學(xué)習(xí)時(shí)報(bào)》,2023年2月17日,第A3版。
[55]王延川、呂君枝:《原始數(shù)據(jù)提供者參與數(shù)據(jù)要素收益分配的理論邏輯與實(shí)踐路徑——以共同富裕為視角的考察》,《陜西師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)》,2023年第3期。
責(zé) 編∕韓 拓 美 編∕周群英
Accelerate the Construction of Chinese Training Data Corpus of AI Large Models
Zhang Linghan
Abstract: The three elements of the development of AI large model industry are algorithm, computing power and data, among which the quality of training data corpus directly determines the ability of AI large models. The total amount of Chinese data corpus is seriously insufficient compared with English data corpus, and there are obstacles such as high risk of illegal data collection, insufficient open utilization of public data, uncoordinated copyright system of offline structured data, and no determined data ownership of commercial procurement and cooperation data, which have become institutional bottlenecks restricting the development of artificial intelligence. The development of China's AI large model industry can clarify the conditions for the identification of the legitimacy of network data sources through judicial precedents, coordinate copyright rules to determine the institutional boundaries of the rationality of offline data use, build an open mechanism to meet the needs of public data participation in corpus construction, coordinately promote the establishment of supply incentives for cross-domain data circulation and transaction rules, and break institutional barriers to meet the needs of industrial development.
Keywords: artificial intelligence large model, training data, corpus construction, copyright system, public data