AIGC熱潮下,數(shù)據(jù)重要性愈發(fā)凸顯。以ChatGPT為首的人工智能,由龐大數(shù)據(jù)集訓(xùn)練而成。如今,已有公司“揭竿而起”要求收費(fèi),不再甘于被微軟、谷歌等科技巨頭免費(fèi)用數(shù)據(jù)。
(資料圖)
當(dāng)?shù)貢r(shí)間周二,Reddit宣布,將向使用其API訓(xùn)練AI聊天機(jī)器人的公司收取數(shù)據(jù)使用費(fèi),其中便包含微軟、谷歌、OpenAI等。
之前這些公司都通過(guò)應(yīng)用程序編程接口(API)下載并處理論壇上的聊天內(nèi)容,并將聊天內(nèi)容當(dāng)做免費(fèi)訓(xùn)練工具,用于開(kāi)發(fā)新AI系統(tǒng)。例如,谷歌聊天機(jī)器人Bard的底層算法之一便是用Reddit聊天數(shù)據(jù)訓(xùn)練而來(lái);OpenAI的ChatGPT也將Reddit數(shù)據(jù)納入大型語(yǔ)言模型的訓(xùn)練內(nèi)容。
Reddit是美國(guó)訪(fǎng)問(wèn)量最大的網(wǎng)站之一,用戶(hù)可以在其中創(chuàng)建并分享內(nèi)容,還有人將其稱(chēng)為“美國(guó)版百度貼吧”。
公司創(chuàng)始人兼首席執(zhí)行官Steve Huffman表示,“Reddit比互聯(lián)網(wǎng)上任何其他地方都更適合聊天,平臺(tái)上很多內(nèi)容是用戶(hù)只會(huì)私下說(shuō)的、或壓根不會(huì)說(shuō)的東西。Reddit的數(shù)據(jù)庫(kù)確實(shí)很有價(jià)值,我們沒(méi)有必要免費(fèi)提供這些價(jià)值給世界上最大的公司?!?/p>
這也是首次有社交媒體公司明確向OpenAI等收取費(fèi)用,開(kāi)放訪(fǎng)問(wèn)權(quán)用于開(kāi)發(fā)人工智能系統(tǒng)。
目前,Reddit暫未公布具體收費(fèi)標(biāo)準(zhǔn),但其表示,將會(huì)給出不同的等級(jí),根據(jù)使用者的規(guī)模和需求來(lái)收費(fèi)。此外,這一舉措不會(huì)影響那些使用API來(lái)創(chuàng)建和維護(hù)內(nèi)容審核工具的人,Reddit會(huì)為他們提供專(zhuān)門(mén)的iOS和Android應(yīng)用程序。
實(shí)際上,眼下已意識(shí)到數(shù)據(jù)價(jià)值的公司并不止Reddit——圖片托管服務(wù)商Shutterstock已把圖像數(shù)據(jù)出售給OpenAI,幫助開(kāi)發(fā)了DALL-E;許多公司也在使用API追蹤推特上的聊天內(nèi)容,推特計(jì)劃針對(duì)API使用收取幾萬(wàn)到幾十萬(wàn)美元不等的費(fèi)用。
▌數(shù)據(jù)已成“AI發(fā)展的勝負(fù)手”
為了不斷改進(jìn)AI模型,有兩個(gè)關(guān)鍵因素不可或缺:強(qiáng)大的計(jì)算能力和大量可用的數(shù)據(jù)。一些大型AI開(kāi)發(fā)公司通常擁有足夠的算力,但仍會(huì)在互聯(lián)網(wǎng)上尋找改進(jìn)算法所需的數(shù)據(jù),數(shù)據(jù)來(lái)源包括維基百科、各種數(shù)字化書(shū)籍、學(xué)術(shù)文章和Reddit論壇上的聊天內(nèi)容等。
OpenAI就曾透露,訓(xùn)練ChatGPT使用了45TB的數(shù)據(jù)、近1萬(wàn)億個(gè)單詞,大概是1351萬(wàn)本牛津詞典所包含的單詞數(shù)量。
知乎在日前發(fā)布大模型“知海圖AI”,其倚仗的一大有力支撐便是中文互聯(lián)網(wǎng)大量問(wèn)答內(nèi)容。知乎創(chuàng)始人、董事長(zhǎng)兼CEO周源表示,AI時(shí)代,生產(chǎn)力的三要素分別是應(yīng)用場(chǎng)景、專(zhuān)有數(shù)據(jù)和基礎(chǔ)模型。其中,知乎以問(wèn)答為基礎(chǔ)的討論場(chǎng)景是天然的應(yīng)用場(chǎng)景,構(gòu)成了獨(dú)一無(wú)二的專(zhuān)有數(shù)據(jù)。
而彭博的BloomberGPT訓(xùn)練數(shù)據(jù)總量約為5300億次,其中金融行業(yè)數(shù)據(jù)約為2720億次,約占所有訓(xùn)練數(shù)據(jù)的54.2%,來(lái)源包括網(wǎng)絡(luò)、新聞、公司公告與財(cái)務(wù)報(bào)表以及彭博自己的新聞庫(kù)。
海量數(shù)據(jù)為基礎(chǔ)的大模型訓(xùn)練產(chǎn)生了突現(xiàn)能力(Emergent Ability),帶來(lái)AI研究范式轉(zhuǎn)變。只有在訓(xùn)練數(shù)據(jù)量足夠大時(shí),量變才能引起質(zhì)變。而GPT相比于此前模型所具備的“泛化能力”,就是以海量數(shù)據(jù)為基礎(chǔ)產(chǎn)生的。
在這種情況下,數(shù)據(jù)更有了“AI發(fā)展的勝負(fù)手”之稱(chēng)——算法、算力和數(shù)據(jù)是AI發(fā)展的三大重要基礎(chǔ)。東吳證券指出,對(duì)于我國(guó)而言,算法和算力都可以通過(guò)挖掘優(yōu)質(zhì)人才、引進(jìn)優(yōu)秀工程實(shí)踐,或者直接購(gòu)買(mǎi)海外優(yōu)質(zhì)資產(chǎn)追趕。而培養(yǎng)中文環(huán)境的優(yōu)質(zhì)數(shù)據(jù)集、語(yǔ)料庫(kù)卻必須長(zhǎng)期自我積累沉淀,未來(lái)數(shù)據(jù)將成為AI發(fā)展的勝負(fù)手,并有望為中國(guó)訓(xùn)練自己的大模型,走出差異化道路提供重要基礎(chǔ)。
(文章來(lái)源:科創(chuàng)板日?qǐng)?bào))
-
如何選擇合適的理財(cái)工具?各類(lèi)理財(cái)工具的特點(diǎn)是什么?如何選擇合適的理財(cái)工具?選擇合適的理財(cái)產(chǎn)品需要投資者考慮自身投資目標(biāo)、風(fēng)險(xiǎn)承受能力、產(chǎn)品特點(diǎn)、交易費(fèi)用等因素,并進(jìn)行充... -
什么叫白馬股?藍(lán)籌股和白馬股哪個(gè)好?藍(lán)籌股的價(jià)值什么叫白馬股?白馬股,是指長(zhǎng)期績(jī)優(yōu)、回報(bào)率高并具有較高投資價(jià)值的股票。一般來(lái)說(shuō)白馬股的漲幅是比藍(lán)籌要大的,因?yàn)樗{(lán)籌太過(guò)... -
301開(kāi)頭的股票是什么股?證券賬戶(hù)開(kāi)戶(hù)哪家的費(fèi)率低?301開(kāi)頭的股票是什么股?301開(kāi)頭的股票代表的是創(chuàng)業(yè)板的股票。股票的代碼通常由六位數(shù)字組成,前三位數(shù)字代表的是股票所屬的交... -
企業(yè)虧損的原因有哪些?玩短線(xiàn)減少虧損的技巧是什么?企業(yè)虧損的原因有哪些?1、客觀因素(1)受?chē)?guó)際環(huán)境影響,出口貿(mào)易受挫。(2)國(guó)內(nèi)需求不足造成產(chǎn)品價(jià)格下降,影響了企業(yè)效益的提... -
新手理財(cái)應(yīng)該怎么做?適合新手理財(cái)?shù)奈宕笸顿Y項(xiàng)目是什么?新手理財(cái)應(yīng)該怎么做?1、測(cè)試自己的風(fēng)險(xiǎn)承受能力新手在理財(cái)?shù)牡谝徊?,?yīng)該通過(guò)一些交易原件來(lái)測(cè)試自己的風(fēng)險(xiǎn)承受能力,以及自...
-
如何選擇合適的理財(cái)工具?各類(lèi)理財(cái)工具的特點(diǎn)是什么?
2023-04-12 08:08:29
-
什么叫白馬股?藍(lán)籌股和白馬股哪個(gè)好?藍(lán)籌股的價(jià)值
2023-04-04 09:30:09
-
301開(kāi)頭的股票是什么股?證券賬戶(hù)開(kāi)戶(hù)哪家的費(fèi)率低?
2023-04-04 09:23:47
-
企業(yè)虧損的原因有哪些?玩短線(xiàn)減少虧損的技巧是什么?
2023-04-04 09:20:54
-
新手理財(cái)應(yīng)該怎么做?適合新手理財(cái)?shù)奈宕笸顿Y項(xiàng)目是什么?
2023-04-04 09:04:31















營(yíng)業(yè)執(zhí)照公示信息