ChatGPT為何沒能誕生在中國？

作者：劉國芳　日期：2023-02-16 10:16:40　點(diǎn)擊數(shù)：

2月9日，發(fā)表在美國《科學(xué)公共圖書館·數(shù)字健康》的一篇文章提到，ChatGPT參加了美國執(zhí)業(yè)醫(yī)師資格考試。這項(xiàng)以高難度著稱的考試中，共350道題，內(nèi)容涵蓋基礎(chǔ)科學(xué)、生物化學(xué)、診斷推理和生物道德學(xué)。ChatGPT未經(jīng)專門的培訓(xùn)或強(qiáng)化，經(jīng)過兩名評審員打分，三部分的成績接近或超過了及格門檻，并表現(xiàn)出了高度的一致性和洞察力。

近兩個(gè)多月，這款聊天機(jī)器人寫詩、寫小說、敲代碼，幾乎無所不能，掀起一場AI風(fēng)暴。比爾·蓋茨稱贊，ChatGPT將會“改變我們的世界”。但OpenAI 首席執(zhí)行官山姆·奧特曼也承認(rèn)，ChatGPT雖然很酷，卻頻繁出現(xiàn)錯(cuò)誤信息，經(jīng)常宕機(jī)，是個(gè)“糟糕的產(chǎn)品”。

近日的一次采訪中，奧特曼說，現(xiàn)在推出的ChatGPT只是70分版本，還在準(zhǔn)備更加強(qiáng)大的模型以及在研究更多東西，“不把這些東西拿出來的原因是，人們會認(rèn)為我們有一個(gè)完整的通用人工智能（AGI），準(zhǔn)備好按下按鈕，這還差得遠(yuǎn)”。

ChatGPT為何沒能誕生在中國？(圖1) 圖/IC

有更高“情商”，但不必神化

為與ChatGPT較量，當(dāng)?shù)貢r(shí)間2月6日，谷歌宣布，將推出自己的AI聊天機(jī)器人Bard，并在推特發(fā)布了宣傳樣片。Bard使用的是谷歌在2021年推出的大型語言模型LaMDA，所用技術(shù)與ChatGPT相似。

宣傳樣片中，有人提問，“請問詹姆斯·韋伯太空望遠(yuǎn)鏡有哪些新發(fā)現(xiàn)？”Bard給出3個(gè)條理分明的回答，但兩條是錯(cuò)誤的。Bard稱，“韋伯望遠(yuǎn)鏡發(fā)現(xiàn)‘綠豌豆’星系的時(shí)間是在2023年”，這一回答的正解是2022年7月?！霸撏h(yuǎn)鏡拍攝了太陽系外行星首張照片”的回答也不準(zhǔn)確，2004年，歐洲南方天文臺利用智利的超大望遠(yuǎn)鏡已拍攝了太陽系外行星照片。

這款聊天機(jī)器人目前仍在內(nèi)測，會在未來幾周開放給更多公眾。首秀“翻車”兩天后，谷歌母公司Alphabet股價(jià)大跌，市值損失1000億美元。

當(dāng)?shù)貢r(shí)間2月7日，微軟緊隨其后發(fā)布了新品，推出新版搜索引擎必應(yīng)和Edge瀏覽器，新增了和ChatGPT一樣的AI語言模型GPT3.5，微軟稱之為“普羅米修斯”，并表示比ChatGPT更強(qiáng)大。微軟演示中，搜索“宜家雙人座椅是否適合2019年款本田某商務(wù)車型”，除傳統(tǒng)搜索頁面外，頁面右側(cè)多了一個(gè)聊天窗口，詳細(xì)列出宜家雙人座椅和這款車的車內(nèi)空間尺寸，給出使用建議，并附上相關(guān)鏈接。該搜索引擎仍在試用階段，微軟CEO薩蒂亞納德稱這一天為“搜索領(lǐng)域嶄新的一天”，并向谷歌宣戰(zhàn)，“比賽從今天開始”。

2022年11月30日，OpenAI推出了ChatGPT。該公司總裁格雷戈·布洛克曼在接受采訪時(shí)坦言，“當(dāng)時(shí)并不知道它是否成功”。全球最領(lǐng)先的AI語言模型如此直接、低門檻地向普通大眾敞開懷抱，并接受所有人的“審視”，這幾乎是第一次。

前微軟亞洲互聯(lián)網(wǎng)工程院副院長、現(xiàn)小冰公司CEO李笛對《中國新聞周刊》分析說，ChatGPT之所以出圈，特別之處在于，它被普通用戶觀察到，并超過了人們對人工智能的預(yù)期。

用戶嘗試用千奇百怪的問題試探ChatGPT的邊界。它聽得懂一段相當(dāng)復(fù)雜的指令，比如，“給OpenAI創(chuàng)始人寫一封英文采訪郵件，探討對ChatGPT使用的理性思考，提到ChatGPT的熱度及遭受教育界抵觸的事實(shí)，并列出5個(gè)問題”。它能指出一段話中的語法和邏輯錯(cuò)誤，有人惡趣味地騙它，“我吃了一輛汽車，現(xiàn)在有點(diǎn)餓，該怎么辦？”它很快識破，“很抱歉，吃汽車是不可能的，如果您感到饑餓，我建議您吃點(diǎn)實(shí)際的食物?！鄙踔聊氵€可以要求ChatGPT在聊天中再構(gòu)建一個(gè)ChatGPT，看著它和自己聊天。

今年1月，美國北密歇根大學(xué)哲學(xué)教授安東尼·奧曼向《紐約時(shí)報(bào)》提到，他曾收到一份“班級中最好的論文”，段落簡潔，舉例恰當(dāng)，論據(jù)嚴(yán)謹(jǐn)，令人生疑。隨后這位學(xué)生承認(rèn)，文章是ChatGPT寫的。美國一家醫(yī)療保健創(chuàng)業(yè)公司的臨床醫(yī)生嘗試讓ChatGPT參加美國執(zhí)業(yè)醫(yī)師資格考試。這項(xiàng)標(biāo)準(zhǔn)化考試，考生至少要專門騰出300~400小時(shí)備考，最難的部分面向研究生。研究者下載了一份2022年6月的考題，確保ChatGPT從未訓(xùn)練過相關(guān)數(shù)據(jù)，也不知道考題答案，ChatGPT考試成績基本合格。該團(tuán)隊(duì)認(rèn)為，這些結(jié)果表明，大型語言模型可能有助于醫(yī)學(xué)教育，并可能有助于臨床決策。

當(dāng)?shù)貢r(shí)間2月10日，微軟創(chuàng)始人比爾·蓋茨接受一家德國媒體采訪時(shí)表示，ChatGPT的重要性不亞于互聯(lián)網(wǎng)的發(fā)明。而作為曾經(jīng)的ChatGPT投資人、特斯拉 CEO埃隆·馬斯克也曾在推特發(fā)文稱贊，“ChatGPT好得嚇人，我們離強(qiáng)大到危險(xiǎn)的人工智能不遠(yuǎn)了?！?/p>

和其他聊天機(jī)器人相比，ChatGPT顯示出了更高的“情商”。用戶會發(fā)現(xiàn)，ChatGPT可以回答用戶追問的問題，能承認(rèn)錯(cuò)誤，不斷調(diào)整回答。問它《紅樓夢》開篇“原來女媧氏煉石補(bǔ)天之時(shí)”的出處，它的回答是《山海經(jīng)》，被提醒錯(cuò)誤后，它很快道歉并調(diào)整答案：《封神榜》。它解釋的理由中可以看到，它搜索的關(guān)鍵詞是“女媧煉石補(bǔ)天”，再次追問，它說，女媧煉石補(bǔ)天的傳說是一個(gè)歷史悠久的故事，出現(xiàn)在多個(gè)文獻(xiàn)和傳統(tǒng)文化中，“因此，沒有一個(gè)確定的出處”。

李笛說，ChatGPT目前在三個(gè)地方有價(jià)值，它能幫用戶生成一段內(nèi)容作為初稿，例如郵件、短新聞等，用戶再去修改，但現(xiàn)實(shí)中，“已有一些國外學(xué)生等用戶，用它作弊，直接作為終稿提交”。

第二個(gè)價(jià)值在于，可以給用戶提供“啟發(fā)”和靈感。ChatGPT可以把信息有條理地呈現(xiàn)出來，“假如你想找一個(gè)人討論，盡管它的觀點(diǎn)不一定準(zhǔn)確，但它會為你提供一種思路。”李笛說，第三個(gè)價(jià)值就是娛樂。除此之外，如果有人希望ChatGPT提供知識并對此深信不疑，“最好不要，沒人能確保它的準(zhǔn)確性”。

多位專家提醒，不必神化ChatGPT及其背后的大模型?！八梢韵衲Ｏ駱訉懲扑]信，但如果讓它回答一些專業(yè)問題，你仔細(xì)看會發(fā)現(xiàn)，它可能是在一本正經(jīng)胡說八道?！鼻迦A大學(xué)計(jì)算機(jī)系自然語言處理實(shí)驗(yàn)室副教授劉知遠(yuǎn)對《中國新聞周刊》說。

就連ChatGPT也承認(rèn)自己的局限性。問及缺點(diǎn)，它回答：有可能會生成存在種族歧視、性別歧視等偏見的文本，因知識有限或不能理解語義而回答錯(cuò)誤，不能處理復(fù)雜的邏輯和數(shù)學(xué)問題，而且，其擁有的知識只停留在2021年。新版必應(yīng)和Edge瀏覽器則可以檢索實(shí)時(shí)更新的新聞，甚至可以跟你聊過去一個(gè)小時(shí)發(fā)生的事情。

ChatGPT發(fā)布僅一周，當(dāng)?shù)貢r(shí)間2022年12月6日，因用戶大量搬運(yùn)ChatGPT生成的錯(cuò)誤答案，海外知名編程問答平臺Stack Overflow暫時(shí)在該網(wǎng)站封殺ChatGPT，認(rèn)為“發(fā)布由 ChatGPT 創(chuàng)建的答案對網(wǎng)站及詢問和尋找正確答案的用戶來說，是非常有害的”。

“某種意義上有點(diǎn)像‘大力出奇跡’”

在李笛看來，就ChatGPT而言，“它不會對產(chǎn)業(yè)產(chǎn)生顛覆性影響，但大模型則會?！?/p>

2016年前，小模型是人工智能理解人類語言的主流技術(shù)，下圍棋或機(jī)器翻譯等某一個(gè)具體任務(wù)，標(biāo)注好數(shù)據(jù)，進(jìn)入模型訓(xùn)練。但小模型無法用于其他任務(wù)，數(shù)據(jù)標(biāo)注成本也極高。當(dāng)時(shí)，人工智能領(lǐng)域催生了一個(gè)新的職業(yè)，人工智能數(shù)據(jù)標(biāo)注員?！按蠹視靶θ斯ぶ悄?，說有多少人工，才有多少智能。”劉知遠(yuǎn)對《中國新聞周刊》說。

傳統(tǒng)模式下，自然語言處理是一個(gè)非常嚴(yán)密的推理過程，不僅要識別每個(gè)詞，還要處理詞語間的序列，因此誕生了循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）模型。但RNN只考慮單詞或者上下文信息，常常導(dǎo)致全文句意前后不連貫，或者理解復(fù)雜句子時(shí)出錯(cuò)。2016年以前，當(dāng)時(shí)的小冰、Siri等問答系統(tǒng)或者機(jī)器翻譯，都使用小模型。

“當(dāng)時(shí)的人工智能行業(yè)，很多技術(shù)領(lǐng)域（比如機(jī)器學(xué)習(xí)等）已進(jìn)入到一個(gè)瓶頸階段?！崩畹迅嬖V《中國新聞周刊》。

2017年，谷歌發(fā)表論文《Attention is All You Need》，引入自注意力機(jī)制學(xué)習(xí)文本，命名為Transformer模型。在該模型下，神經(jīng)網(wǎng)絡(luò)需要學(xué)會自動判斷哪些詞語對理解句意最有幫助，而不是“全文死記硬背”，因此，也不再像過去一樣需要大量精標(biāo)樣本。論文一經(jīng)發(fā)布，Transformer模型很快取代RNN成為主流。2018年，基于Transformer，谷歌推出預(yù)訓(xùn)練模型BERT（即基于變換器的雙向編碼器表示技術(shù)），同年，OpenAI推出了GPT-1（即生成式預(yù)訓(xùn)練變換器）。

劉知遠(yuǎn)介紹，預(yù)訓(xùn)練模型為自然語言處理帶來了兩個(gè)變化：一是可以充分利用網(wǎng)上海量的未標(biāo)注數(shù)據(jù)，模型的規(guī)模和能力得到顯著提高，因而，從規(guī)模角度，預(yù)訓(xùn)練模型被稱為大模型；另一個(gè)變化是，大模型具有非常強(qiáng)的通用能力，只需經(jīng)過少量參數(shù)微調(diào)，就可以用于機(jī)器翻譯、人機(jī)對話等不同任務(wù)?！按竽Ｐ退枷?，某種意義上有點(diǎn)像‘大力出奇跡’，把大量數(shù)據(jù)壓到一個(gè)很大的黑盒子中再提出來?！崩畹褜Α吨袊侣勚芸氛f。

“但人工標(biāo)注還是一個(gè)重要的數(shù)據(jù)來源，此前大量的標(biāo)注沒必要了，但在特定任務(wù)上還需要標(biāo)注一些，比如希望這個(gè)模型輸出的內(nèi)容更符合人的需求?！眲⒅h(yuǎn)說。近期，《時(shí)代》周刊的調(diào)查，呈現(xiàn)出ChatGPT智能背后的灰暗角落。《時(shí)代》周刊稱，2021年11月，為訓(xùn)練 ChatGPT，OpenAI 使用了每小時(shí)收入1 ~2美元的肯尼亞外包勞工，對性虐待、仇恨言論和暴力等文本進(jìn)行標(biāo)注，保證聊天機(jī)器人過濾有害信息，輸出適合日常對話的內(nèi)容，同時(shí)，這對標(biāo)注員的精神和心理產(chǎn)生極大傷害。

學(xué)術(shù)界對大模型態(tài)度一直存在分歧。北京智源人工智能研究院副院長劉江介紹，GPT-3論文發(fā)布時(shí)，無論國內(nèi)外，不少自然語言處理領(lǐng)域?qū)W者認(rèn)為，大模型只是靠持續(xù)燒錢、粗暴擴(kuò)大數(shù)據(jù)規(guī)模提升能力，并非真正創(chuàng)新。劉知遠(yuǎn)對《中國新聞周刊》說，還有一個(gè)更現(xiàn)實(shí)的問題，大模型需要極大數(shù)據(jù)和算力支持，如果一些研究者的實(shí)驗(yàn)室沒有算力支持，他們可能會選擇過去熟悉的方向。

OpenAI是全球所有科技公司中，大模型的堅(jiān)定支持者。2019年，OpenAI推出參數(shù)為15億的GPT-2，2020年推出GPT-3，將參數(shù)提升到了1750億，成為當(dāng)時(shí)全球最大的預(yù)訓(xùn)練模型，引發(fā)業(yè)內(nèi)轟動?！敖^大部分人根本沒想過，人類可以把一個(gè)模型訓(xùn)練到這么大的規(guī)模，這對自然語言交互的流暢性有非常強(qiáng)的提升?！眲⒅h(yuǎn)說。

參數(shù)增多，使語言模型學(xué)習(xí)進(jìn)階到更復(fù)雜模式。早在2020年，GPT-3可以做到其他模型無法做到的事情，比如作詩、寫復(fù)雜的文章和代碼等，通用性極強(qiáng)。劉知遠(yuǎn)形容，GPT-3像是一個(gè)伶牙俐齒的人，有不錯(cuò)的表達(dá)能力，但不具備很強(qiáng)理解能力。

2022年，GPT-3進(jìn)一步升級為GPT-3.5，這是ChatGPT的底層基礎(chǔ)，OpenAI進(jìn)行微調(diào)，提升交互能力，讓它“聽得懂人類的復(fù)雜指令”?！斑@些都經(jīng)過了專門訓(xùn)練，像父母對小孩的調(diào)教?！眲⒔稳荩珿PT-3像是兩三歲的天才兒童，讀完世界上所有的書，但不知輕重，也沒有價(jià)值觀，需要父母精心教育和啟發(fā)，讓它在聊天方面發(fā)揮潛力。

清華大學(xué)智能產(chǎn)業(yè)研究院首席研究員聶再清向《中國新聞周刊》介紹，ChatGPT聊天能力的顯著提升，是引入了一個(gè)新的數(shù)據(jù)訓(xùn)練方法，人類反饋強(qiáng)化學(xué)習(xí)（RLHF）。OpenAI引入人類評判員，創(chuàng)建一個(gè)獎(jiǎng)勵(lì)模型——評判員不斷地跟ChatGPT對話，并對它生成的答案按照質(zhì)量好壞評分，模型收到反饋后進(jìn)行優(yōu)化。山姆·奧特曼也承認(rèn)，“讓模型以特定方式對人們有所用途，并找出正確的交互范式，卻得到了驚人的效果?！?/p>

在自然語言處理領(lǐng)域，流傳最廣的一句話來自于比爾·蓋茨：“自然語言處理是人工智能皇冠上的明珠，如果我們能夠推進(jìn)自然語言處理，就可以再造一個(gè)微軟?！?/p>

劉知遠(yuǎn)認(rèn)為，ChatGPT推出后最大的價(jià)值在于，能用RLHF等技術(shù)，把大模型的能力展現(xiàn)出來，讓公眾意識到，人工智能與人類自然語言的交互達(dá)到非常高的水平，機(jī)器已經(jīng)可以“能言善辯”了。

但大模型為何有時(shí)生成錯(cuò)誤答案？在李笛看來，這是由其技術(shù)結(jié)構(gòu)決定的。聶再清進(jìn)一步向《中國新聞周刊》解釋，這是因?yàn)镃hatGPT本質(zhì)上還是一個(gè)基于概率的語言模型，本身不涉及知識的對錯(cuò)，未來仍需用更多的專業(yè)知識訓(xùn)練。

當(dāng)下，大模型與搜索引擎結(jié)合已是大勢所趨。聶再清建議，新版搜索引擎給出綜合答案后，最好附上原始網(wǎng)絡(luò)鏈接，有利于用戶自己驗(yàn)證AI回答的正確性。目前新版必應(yīng)在每個(gè)回復(fù)下加入信息來源。但兩者結(jié)合最終成功與否的關(guān)鍵，“還是在于AI總結(jié)的答案絕大部分都是對的，不會耽誤用戶花更多時(shí)間來驗(yàn)證結(jié)果。”

更關(guān)鍵問題是，ChatGPT及其背后的大模型，仍是基于數(shù)據(jù)驅(qū)動生成內(nèi)容，不是像人類一樣會思考和推理。但2月上旬，斯坦福大學(xué)計(jì)算心理學(xué)教授邁克爾·科辛斯基發(fā)表論文稱，在對幾個(gè)語言模型進(jìn)行專業(yè)測試后，他發(fā)現(xiàn)ChatGPT 表現(xiàn)接近 9 歲兒童的心智。

近期，因在深度學(xué)習(xí)領(lǐng)域貢獻(xiàn)獲2018年圖靈獎(jiǎng)的楊立昆談到，人類思維方式和對世界的感知，是人類獲得常識的基礎(chǔ)，聊天機(jī)器人的模型沒有這種能力。對此，ChatGPT回答《中國新聞周刊》說，“我的設(shè)計(jì)是基于概率模型和大量的數(shù)據(jù)訓(xùn)練，以回答問題和執(zhí)行任務(wù)。我不具有意識、情感或主觀體驗(yàn)，也不能對世界產(chǎn)生真正的影響?！?/p>

隨著ChatGPT的發(fā)展，未來會不會替代人類的工作？

“我相信ChatGPT會取代一些工種，或者讓一些工種不需要太多人參與，這是一個(gè)潛移默化的過程?！眲⒅h(yuǎn)對《中國新聞周刊》說，但與此同時(shí)，它也會催生一些新的工作，比如，以前畫畫需要很高的門檻，但現(xiàn)在，即使一些人不會畫畫，但有天馬行空的想象力和創(chuàng)意，一樣可以和AI一起創(chuàng)作。

ChatGPT似乎承認(rèn)自己可以在部分工作中替代一些人力勞動，“可以在許多行業(yè)中使用，例如客服、教育、媒體、醫(yī)療保健和金融”，但它補(bǔ)充說，“我不能取代需要人類情感和社交技能的工作，例如教育和醫(yī)療保健等需要人類情感互動和洞察力的領(lǐng)域。”

美國天普大學(xué)心理學(xué)系教員凱西·帕塞克等人近期在一篇分析文章中提到，紐約市一名高中歷史老師反對阻止使用 ChatGPT，關(guān)鍵在于，“如果我們的教育系統(tǒng)繼續(xù)‘追求評分而不是知識’，ChatGPT 只會是一種威脅?！眲P西認(rèn)為，如果以正確方式使用，ChatGPT 可以成為課堂上的朋友，對我們的學(xué)生來說是一個(gè)了不起的工具，而不是令人恐懼的東西。

中國何時(shí)會有自己的ChatGPT？

相較國外， ChatGPT在國內(nèi)的熱度稍顯滯后。谷歌和微軟短兵相接時(shí)，國內(nèi)搜索巨頭百度也宣布3月將推出中國版的ChatGPT“文心一言”。騰訊稱，在ChatGPT和AIGC相關(guān)方向已有布局，阿里達(dá)摩院正在研發(fā)的類ChatGPT的對話機(jī)器人，目前已開放給公司內(nèi)員工測試。此外，快手、京東、360等多家互聯(lián)網(wǎng)企業(yè)也都表示在相關(guān)領(lǐng)域研發(fā)和布局。

2月13日，北京市經(jīng)濟(jì)和信息化局在北京人工智能產(chǎn)業(yè)創(chuàng)新發(fā)展大會上明確表示，北京將支持頭部企業(yè)打造對標(biāo)ChatGPT的大模型。

李笛提到，在ChatGPT之前，國內(nèi)和國外已經(jīng)有很多公司在利用大模型做很多產(chǎn)品和研發(fā)，市面上也有很多訓(xùn)練出來的大模型，“只不過在人工智能的訓(xùn)練過程中，研發(fā)者的專注度、投入度不一樣”，并不存在“技術(shù)壁壘”。ChatGPT火熱背后，是OpenAI從2018年以來持續(xù)投入完善大模型，取得了這一效果，所以有一定“時(shí)間壁壘”。

2月7日，360在互動平臺表示，公司人工智能研究院從2020年起，一直在包括類ChatGPT技術(shù)在內(nèi)的AIGC技術(shù)上有持續(xù)性投入，但截至目前僅作為內(nèi)部業(yè)務(wù)自用生產(chǎn)力工具使用，且投資規(guī)模及技術(shù)水平與當(dāng)前ChatGPT 3比還有較大差距，各項(xiàng)技術(shù)指標(biāo)只能做到略強(qiáng)于ChatGPT 2。

早在2020年，北京智源研究院曾推出超大規(guī)模智能模型“悟道”項(xiàng)目，阿里達(dá)摩院自研預(yù)訓(xùn)練模型框架ALICE。2021年，深圳鵬城實(shí)驗(yàn)室為首的聯(lián)合團(tuán)隊(duì)，推出參數(shù)為2000億的大模型“鵬程·盤古”，探索通用人工智能。多位受訪專家提到，中國目前大模型研發(fā)與OpenAI仍有差距，國內(nèi)要有像GPT3.5這樣的大模型，但沒必要每個(gè)公司都去投入和研發(fā)。

大模型打造離不開AI的三大基石：數(shù)據(jù)，算法和算力。大模型多燒錢？一位AI從業(yè)者向《中國新聞周刊》舉例，他接觸的一個(gè)數(shù)據(jù)公司有中文數(shù)據(jù)量700億~1000億條，每天定期更新3億條，據(jù)了解，這比ChatGPT在中文世界的數(shù)據(jù)量多，如果有研究者想要下載，先得支付30萬的下載費(fèi)，“這只是大模型訓(xùn)練中一個(gè)很小的環(huán)節(jié)，你可以想象它是一個(gè)無比巨大的機(jī)器，電費(fèi)都是天價(jià)”。

算力離不開芯片。2月12日，國盛證券估算，今年1月，平均每天約有1300萬獨(dú)立訪客使用ChatGPT，對應(yīng)芯片需求為3萬多片英偉達(dá)A100GPU，初始投入成本約8億美元，每日電費(fèi)5萬美元左右。而GPT-3訓(xùn)練一次，成本約為140萬美元，對一些更大的大模型，訓(xùn)練成本介于200萬美元至1200萬美元之間。這一成本對全球科技大企業(yè)而言，尚在可接受范圍內(nèi)，但并不便宜。

在數(shù)據(jù)上，2020年，GPT-3使用的最大數(shù)據(jù)集在處理前容量達(dá)到了45TB。鵬城實(shí)驗(yàn)室副研究員曾煒等人在2022年發(fā)布一篇論文中提到，目前已有3個(gè)100GB以上規(guī)模的中文語料數(shù)據(jù)集，分別是爬蟲公司Common Crawl抽取到的CLUECorpus2020，模型規(guī)模為100 GB；阿里巴巴集團(tuán)發(fā)布的M6中文多模態(tài)模型，規(guī)模為300GB；北京智源研究院面向合作者發(fā)布的300GB高質(zhì)量中文語料。文章寫道，“與目前同等規(guī)模參數(shù)量的英文預(yù)訓(xùn)練模型所使用的數(shù)據(jù)量相比，上面這些中文語料數(shù)據(jù)仍不能滿足訓(xùn)練數(shù)據(jù)需求”。

聶再清分析說，中文很多高質(zhì)量信息在APP里，“有點(diǎn)數(shù)據(jù)孤島的意思”，公開的高質(zhì)量互聯(lián)網(wǎng)語料可能不如英文多。另一個(gè)挑戰(zhàn)是，語料篩選、清洗、預(yù)處理和標(biāo)注需要相關(guān)技術(shù)人員深度參與，會有一個(gè)不斷迭代和較為長期的過程。

此外，中文機(jī)器語言學(xué)習(xí)在很多方面要比英文更復(fù)雜，中文和英文在句法結(jié)構(gòu)、縮寫規(guī)范方面也有差別。聶再清提醒，打造對標(biāo)ChatGPT的大模型并非一蹴而就，需要時(shí)間。

大模型不只是有ChatGPT這一種產(chǎn)品。當(dāng)有足夠大算力保證時(shí)，學(xué)界和產(chǎn)業(yè)界可以用大模型做更多嘗試。李笛介紹，此前，大模型已在AI繪畫領(lǐng)域造成了很大變化，現(xiàn)在AI文本生成領(lǐng)域也有了新進(jìn)展，AI作曲、AI演唱領(lǐng)域都有人在嘗試，“現(xiàn)在的狀態(tài)很像是‘煉丹’，大家拿到好玩的玩具，想看這一玩具還能吐出什么令人驚訝的東西。我相信，不只是圖像、文本領(lǐng)域，其他領(lǐng)域一定也會有新突破”。

但李笛認(rèn)為，最終還是要看它能否實(shí)現(xiàn)“端到端”的落地。在國內(nèi)，絕大部分大模型都還無法實(shí)現(xiàn)這一目標(biāo)。同樣，很多AI繪畫單幅質(zhì)量已很好，但在可控性上卻“漏洞百出”。所以今天大模型的應(yīng)用普遍還停留在試用階段，距離真正大規(guī)模商用，還有很多事情要調(diào)整。

“這是一個(gè)‘卡脖子’的問題?！眲⒅h(yuǎn)對《中國新聞周刊》說。目前，ChatGPT對國內(nèi)的企業(yè)沒有開放，相關(guān)產(chǎn)業(yè)就無法接入到它的體系中。在劉知遠(yuǎn)看來，OpenAI已經(jīng)做了大模型和產(chǎn)品，更重要的是，“我們能不能發(fā)明出自己創(chuàng)新的技術(shù)和產(chǎn)品”。

聶再清認(rèn)為，最關(guān)鍵的不是信息閉塞，而是國內(nèi)愿不愿意投入到看上去“無用”的研究中，“現(xiàn)在不少業(yè)內(nèi)人士還是希望直接研發(fā)有效有用的東西，不會對一些短期看上去無用的事情上進(jìn)行大量投入，尤其是像開發(fā)ChatGPT這樣大的投入”。

發(fā)于2023.2.20總第1080期《中國新聞周刊》雜志

雜志標(biāo)題：ChatGPT：是AI進(jìn)化革命還是又一場泡沫？

作者：楊智杰

上一篇 : 傳Microchip漲價(jià)3%-8%，面向所有客戶下一篇 : 日本首款“大飛機(jī)”研發(fā)失敗，三菱終止SpaceJet項(xiàng)目

隨便看看

28 2023-11

破解“大國重器”芯片封裝難題瞄準(zhǔn)第三代半導(dǎo)體這家企業(yè)為何隨著新能源車快充技術(shù)日新月異的迭代發(fā)展，新能源汽車時(shí)代正在加速到來，30分鐘完成純電汽車充電不再是傳說。但快速充電，考驗(yàn)...
18 2024-03

強(qiáng)化中國芯片行業(yè)的統(tǒng)一計(jì)劃性，扭轉(zhuǎn)芯片各自為政下的脆弱生態(tài)作為信息技術(shù)產(chǎn)業(yè)的核心基礎(chǔ)之一，芯片是支撐經(jīng)濟(jì)社會發(fā)展的“芯”和“魂”。但近年來，隨著全球科技競爭日趨激烈，我國芯片產(chǎn)業(yè)...
15 2023-07

中低端芯片，國產(chǎn)芯片困局的突破點(diǎn)？飛天商業(yè)：近年來，國內(nèi)科技產(chǎn)業(yè)由于國外的出口管制，陷入無高端芯片可用的困局，芯片國產(chǎn)化迫在眉睫。圍繞 " 自主...
24 2023-04

格芯宣布起訴IBM，涉嫌泄密給日本2nm技術(shù)當(dāng)?shù)貢r(shí)間19日，美國半導(dǎo)體代工大公司格羅方德（以下簡稱格芯）宣布起訴IBM非法使用知識產(chǎn)權(quán)和商業(yè)機(jī)密。格芯于2015年收...

久久高清无码免费视频_9热精品视频在线播放_狠狠躁天天躁男人_2021国产亚洲精品无码专区

ChatGPT為何沒能誕生在中國？

桂林珩源科技有限公司

關(guān)于我們

新聞動態(tài)

產(chǎn)品選型

產(chǎn)品展示

久久高清无码免费视频_9热精品视频在线播放_狠狠躁天天躁男人_2021国产亚洲精品无码专区

ChatGPT為何沒能誕生在中國？

桂林珩源科技有限公司

關(guān)于我們

新聞動態(tài)

產(chǎn)品選型

產(chǎn)品展示

ChatGPT為何沒能誕生在中國？