分享到微信打開微信,點擊底部的“發(fā)現(xiàn)”, |
2022年,ChatGPT和Stable diffusion標志著AIGC技術(shù)的爆發(fā)。一般來說,技術(shù)驅(qū)動的經(jīng)濟模式發(fā)展要經(jīng)歷五個階段:即產(chǎn)生、爆發(fā)(資本/資源介入的發(fā)展)、平穩(wěn)、成熟和類要素階段。在平穩(wěn)和成熟階段,不用考慮技術(shù)細節(jié)僅靠經(jīng)濟規(guī)律宏觀分析就能夠發(fā)現(xiàn)價值看到趨勢;但在產(chǎn)生和爆發(fā)階段,我們不能忽略對技術(shù)細節(jié)的了解,而且需要結(jié)合技術(shù)特征和經(jīng)濟規(guī)律才能把握變化、抓住機遇、找到穿越未來的方向,如同在火勢剛開始時了解它的引燃原因從而精準采取方案一般。本文結(jié)合ChatGPT的訓練原理與新知識經(jīng)濟理論來解釋:為什么說ChatGPT乃至AIGC已經(jīng)突破了數(shù)字經(jīng)濟而過度到了新知識經(jīng)濟。
實際上迄今為止OpenAI并沒有公開相關(guān)ChatGPT的完整技術(shù)細節(jié),相關(guān)ChatGPT技術(shù)原理都是從ChatGPT“出生證明”介紹上獲得的。注意:本文不是技術(shù)文章,對具體的技術(shù)原理感興趣的朋友可以參考筆者或其他作者相關(guān)的《人工智能》《深度學習》等教材或者慕課視頻;但這里我們需要了解ChatGPT訓練方法的思想是什么?因為這可以幫助我們進一步了解知識經(jīng)濟中要素的地位、變化從而確定未來的方向。
在這段話里,OpenAI闡述ChatGPT有這個幾個特點(它們很重要,后面有涉及):
ChatGPT類似于InstructGPT(sibling model),這意味著可以從公開的InstructGPT分析ChatGPT;
ChatGPT通過交互對話方式訓練的;
ChatGPT能夠回答問題、承認并糾正錯誤且能夠拒絕不適當?shù)幕卮鸬龋芰Γ?/p>
這張出生證很短,但是它給了ChatGPT一個清晰的畫像:OpenAI試圖提供給一個人們高效率的、可信的、有能力的人工智能助手。
實際上這三個描述恰好決定了“產(chǎn)生ChatGPT”的方式,或者說ChatGPT技術(shù)原理與此有關(guān)。作為一個注釋:可信人工智能是一個人工智能的發(fā)展方向,特別是當人工智能進入到一些關(guān)鍵性領(lǐng)域,例如金融、醫(yī)學和軍事中。我們的《中國金融科技創(chuàng)新發(fā)展指數(shù)報告》中提出,人工智能與金融的融合分為三個階段,在進入到產(chǎn)能階段后需要邁過兩個門檻,一個是可解釋門檻,一個是可信門檻。
從ChatGPT的原理圖可以看到,其整體分為三個步驟,這三個步驟恰好是為了“雕琢出“需要的能力和畫像。
第一步(Step1)是監(jiān)督學習構(gòu)建能力基礎(chǔ),重點是泛數(shù)據(jù)的價值和第一類知識價值模式。我們知道:有了數(shù)據(jù),監(jiān)督學習是構(gòu)建能力的好方法,注意模仿學習也是可以考慮的。一些學者認為這是數(shù)字經(jīng)濟中重要的數(shù)據(jù)要素價值產(chǎn)生的典型方式,這樣理解雖然沒有問題,但卻是因為不了解技術(shù)細節(jié)而忽略的更本質(zhì)的東西:第一有質(zhì)量的數(shù)據(jù)需要龐大的成本,傳統(tǒng)思維的數(shù)據(jù)價值實現(xiàn)方式有邊際天花板,這形成了新的數(shù)據(jù)價值階段,從監(jiān)督過度到無監(jiān)督,從專業(yè)數(shù)據(jù)過度到泛數(shù)據(jù),這是知識經(jīng)濟理論的必然結(jié)果,ChatGPT以及大語言模型乃至AIGC必然的路徑,這里的技術(shù)細節(jié)是ChatGPT乃至問答模式其實是一個“接龍“,是輸入一系列輸入token后預測后面的token,所以用監(jiān)督學習通過獲得條件概率來獲得,類似于輸入法,泛數(shù)據(jù)實際上解決了標注問題(能力問題),但要注意沒有解決可信問題,因為回答的token(注意是一個接一個預測,這里需要了解一點自然語言處理知識)是概率分布抽樣得到的,即存在隨機性,一個隨機做事的人,你肯定也不大容易相信;第二點實際上在現(xiàn)有的數(shù)字經(jīng)濟框架并不容易發(fā)現(xiàn),需要拓展到知識經(jīng)濟,那就是第一類知識價值模式,ChatGPT中的P本來就含有預訓練的意思,預訓練技術(shù)Finetune是深度學習爆發(fā)的導火索,這顯然是第一類價值模式,即知識的直接遷移和同水平組合(SLC)。需要看到的是,類似的構(gòu)造能力的方式將會產(chǎn)生更多的方法,并在未來新的場景中產(chǎn)生新的應用。這一步獲得的是放飛自我的小白。
第二步(step2)收集比較數(shù)據(jù)并訓練獎勵模型,這是構(gòu)建可信能力的基礎(chǔ),其本質(zhì)上是第三類知識經(jīng)濟價值模式。粗看這一塊和許多傳統(tǒng)語言模型不同,但實際上這個在2017的公開論文中就有了(即基于偏好的模式),按照InstructGPT中原理介紹,對于同樣問題前面獲得的放飛自我的大白會生成的ABCD共4個回答(生成多少都可以,為什么?),參與的人(專家)會給出ABCD四個答案的排序,而實際上ChatGPT是每次抽兩個構(gòu)建評分(大的是1,小的是0),這樣可以構(gòu)建6個評分結(jié)果(C(4,2))。這樣構(gòu)建的獎勵模型實際上可以看作可信監(jiān)督員,我們就稱為監(jiān)管機關(guān)還是監(jiān)管員。
第三步(step3)強化學習架構(gòu)實現(xiàn)固本強基,固定可信能力基礎(chǔ)提升效率,這里涉及到第二類知識價值模式。其實這個與傳統(tǒng)強化學習有些差異,強化學習本質(zhì)上環(huán)境是獎勵的載體,這里是用了第二步的獎勵模型就不用考慮環(huán)境了,可以看到其實是介于強化學習和模仿學習之間,該思路也是17年的論文就有人提出了。其實這里需要看Instruct論文才能夠看到更重要的細節(jié),即這里的獎勵不僅僅是第二步的獎勵模型,還包括了KL散度以避免與GPT3.5產(chǎn)生過大的差距,可以理解為除了監(jiān)管機關(guān)還有法律這個準繩,所以結(jié)果是可信的。因為它帶有“可信”價值導向和資源可篩選機制,所以這是典型的第二類知識經(jīng)濟價值模式的體現(xiàn)。
深度學習剛興起時,以監(jiān)督學習為代表的訓練方法促使了“標注”行業(yè)的誕生,大量的數(shù)據(jù)標注公司比人工智能企業(yè)更早獲得了技術(shù)的第一桶金;而當數(shù)據(jù)要素化并逐漸稱為基礎(chǔ)設(shè)施的過程中,以ChatGPT為代表的AIGC所依賴的訓練方法具有“泛數(shù)據(jù)、非監(jiān)督、可信目標、通用能力”的特點,其本質(zhì)從最初的數(shù)據(jù)要素三重價值逐漸轉(zhuǎn)化到新知識經(jīng)濟的三重價值,強人工智能的道路上,經(jīng)濟模式也由數(shù)字經(jīng)濟轉(zhuǎn)化到知識經(jīng)濟。
【參考文章】:
Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).
Radford, Alec, et al. "Improving language understanding by generative pre-training." (2018).
Ouyang, Long, et al. "Training language models to follow instructions with human feedback." arXiv preprint arXiv:2203.02155 (2022).
Chen, Mark, et al. "Evaluating large language models trained on code." arXiv preprint arXiv:2107.03374 (2021).
Neelakantan, Arvind, et al. "Text and code embeddings by contrastive pre-training." arXiv preprint arXiv:2201.10005 (2022).
Brown, Tom, et al. "Language models are few-shot learners." Advances in neural information processing systems 33 (2020): 1877-1901.
(作者系中央財經(jīng)大學金融學院教授、博士生導師,中央財經(jīng)大學中國金融科技研究中心主任,家族辦公室合作與發(fā)展組織理事會主席兼首席經(jīng)濟學家)
古特雷斯表示,在無監(jiān)管的情況下發(fā)展人工智能可能使人工智能被用作欺騙工具,擾亂經(jīng)濟和勞動力市場。
從2025年到2035年,中國人工智能產(chǎn)業(yè)規(guī)模預計將從3985億元增長至17295億元,復合年增長率為15.6%。
企業(yè)家不一定要冒險,主要的特點是抓住機遇,還要平抑風險。
與之相比,GPT-4o等模型的訓練成本約為1億美元。
鼓勵探索多元化數(shù)據(jù)流通利用方式,發(fā)展數(shù)據(jù)經(jīng)紀、數(shù)據(jù)托管等新業(yè)態(tài)、新模式,提升數(shù)據(jù)流通效率。