分享到微信打開微信,點擊底部的“發(fā)現(xiàn)”, |
機器學(xué)筆記專欄
1 一本索緒爾沒寫過的名著
說起來,索緒爾某種意義上算是幸運的。他于1913年逝世于日內(nèi)瓦,死時幾乎已回歸到籍籍無名的狀態(tài),卻永久躲開了兩次世界大戰(zhàn)的浩劫。
3年后,1916年,一本署名斐迪南·德·索緒爾的書,在乏人問津的狀態(tài)下出版——當(dāng)時一戰(zhàn)正打得熱火朝天、死傷枕藉,很少有人會去注意這么一本叫作《普通語言學(xué)教程》的書名乏味,內(nèi)容對當(dāng)時絕大多數(shù)人來說也很枯燥的教科書。而且這本書根本不是索緒爾本人“寫”的(正如著名結(jié)構(gòu)主義文學(xué)理論家喬納森·卡勒所說,“他對語言學(xué)和其他學(xué)科的影響都來自一些他從未寫過的東西”),而是他最后的幾個學(xué)生——甚至未必稱得上是標(biāo)準(zhǔn)意義上的學(xué)生,因為他只是在同事退休后匆忙接手了三學(xué)期課,而負責(zé)編輯工作的有兩位甚至都沒聽過他這門課——整理出版的一部課堂筆記。6年后,大戰(zhàn)塵埃落定余波未平之際,這本書終于出了第二版,然后再要等上整整27年,它才能在下一場大戰(zhàn)又已落幕而冷戰(zhàn)尚未開啟的1949年,迎來自己的第三版。
但就是這么一本幾乎名不正言不順的“著作”,成了20世紀(jì)后半葉整個蔚為壯觀的結(jié)構(gòu)主義、符號學(xué)運動乃至作為它們的“邏輯后果”的解構(gòu)主義、后現(xiàn)代主義的源頭,更不必說語言學(xué)研究本身因此而發(fā)生的翻天覆地的變化。
作為最新的后續(xù),我想說,甚至對于理解什么是真正的AI,對于在兩條激烈斗爭的AI發(fā)展“路線”(符號主義 vs 聯(lián)結(jié)主義)中何去何從,對于我們究竟應(yīng)怎樣看待AI與人類智能之間的關(guān)系,它都依然極具啟發(fā)性——只要我們還能在一片浮躁和喧囂中,真正潛下心來讀一讀這本乍看很枯燥卻預(yù)埋了無數(shù)思想上的“炸點”的“課本”。畢竟,火熱的GPT系列是基于所謂“大語言模型”,那么你對語言和語言學(xué)一無所知的話,又怎么能真正理解GPT們到底在干什么和怎么干呢?并且當(dāng)你深入了解了GPT們的運行方式,倒過來,很可能你會對人類語言(乃至完全基于語言的人類思維)的構(gòu)造、功能及其運用,從根源上生成一種全新的、前人從未設(shè)想過的理解——再一次,就像馬克思說的,“人體解剖是猴體解剖的一把鑰匙”。
2 符號與符號主義
木心說“唯美主義傷在不懂得美”,借用這個很聰明的“句式”,我想說,“(作為AI主要流派之一的)符號主義傷在不懂得符號”。
不妨以眼下明確以符號主義方式理解AI,并且在硅谷深具影響力的前創(chuàng)業(yè)企業(yè)家、現(xiàn)神經(jīng)科學(xué)和認知心理學(xué)家蓋瑞·馬庫斯為例。
馬庫斯雖然禮貌地對目前AI領(lǐng)域的進展表達了有限的認可,卻在《如何創(chuàng)造可信的AI》一書中集中火力攻擊了當(dāng)下的主流——機器學(xué)習(xí),尤其是機器學(xué)習(xí)中大火的“深度學(xué)習(xí)”。他認為:
“從現(xiàn)實角度來看,深度學(xué)習(xí)只不過攻克了智能機器這一巨大挑戰(zhàn)中的一小部分。深度學(xué)習(xí)這類技術(shù)缺乏表示因果關(guān)系(例如疾病及其癥狀之間的關(guān)系)的方法,很可能在面對‘兄弟姐妹’或‘與之相同’等抽象概念時遇到問題。深度學(xué)習(xí)無法進行邏輯推理,在抽象知識的理解方面也有很長一段路要走……”
所以很顯然,馬庫斯就是新一代對符號的本質(zhì)不甚了了的“符號主義”者。他攻擊主要基于統(tǒng)計學(xué)的深度學(xué)習(xí),因為“統(tǒng)計數(shù)字經(jīng)常能近似地表示意義,但永遠不可能抓住真正的意思”,“如果不能精準(zhǔn)地捕捉每個單詞的意義,就更不能準(zhǔn)確地捕捉復(fù)雜的思想或描述它們的句子”。
正是基于這一點,馬庫斯對于無人駕駛之類的AI技術(shù)應(yīng)用不屑一顧,認為它們離可以真正“上路”還很遙遠,理由和深度學(xué)習(xí)不能精準(zhǔn)把握每一個單詞的意義是一樣的:當(dāng)無人駕駛的汽車駛出實驗環(huán)境,來到真正的公路上時,它會迷失于沿路各種千奇百怪的從未出現(xiàn)在訓(xùn)練數(shù)據(jù)集中的事物,因無法精準(zhǔn)識別出它們究竟是什么東西,而無法做出合理的決策。
而事實上,每一個多少懂點索緒爾符號任意性理論的人,都知道無人駕駛根本不需要去識別出遇到的每一樣?xùn)|西到底是什么,它只要構(gòu)建一個有效的差別系統(tǒng)就可以了:根據(jù)比如動量值來建立一個差異,從而區(qū)分出兩種對立狀態(tài),有的東西可以撞,有的東西不可以撞,一個初步的自動駕駛系統(tǒng)就可以建立起來了,其他的都是進一步的細化工作。
此外,索緒爾明確指出“整體語言”是一個社會性的系統(tǒng),而“個體語言”或“言語”是個人對這一系統(tǒng)的運用。再放到譬如無人駕駛上來,真正的AI無人駕駛,并不是一個產(chǎn)品,也不可能僅僅是企業(yè)行為——它必須是基于相關(guān)產(chǎn)品的整體社會轉(zhuǎn)型。無人駕駛并不是說有一輛車,比如最好的特斯拉,它可以在現(xiàn)有的公路狀況和城市環(huán)境下,將行駛過程中出現(xiàn)事故的可能性壓低到可以忽略不計的程度。真正的無人駕駛一開始就是一個社會系統(tǒng)工程,是整個社會在出行方式上的根本轉(zhuǎn)型。這種轉(zhuǎn)型不僅要發(fā)生在所謂“交通”的整個運作模式上,也同時必須發(fā)生在每一個人的出行方式及其規(guī)范上。
打個比方,就像手機支付,不是某個人、某款手機、某家商場甚至某個支付系統(tǒng)的事情,而是整個社會的“支付生態(tài)”從收銀機和刷卡向掃碼的徹底轉(zhuǎn)變。此時,個人的行為模式也(至少在某一重要方面)發(fā)生巨變,比如幾乎不再隨身攜帶鈔票,因而錢包瀕于淘汰,但手機卻須臾不可離身。同樣,人們在街道上行走的方式也會因無人駕駛而發(fā)生改變。記住,絕大多數(shù)情況下新技術(shù)并不需要去完全適應(yīng)人的既有環(huán)境和行為,而是人改變自身行為模式去適應(yīng)新技術(shù)。最典型的例子,是當(dāng)汽車取代馬車,人“不得不”發(fā)明出紅綠燈來控制交叉路口的車流以降低事故發(fā)生的可能性(而紅綠燈就是一個典型的僅僅基于二元或三元差異的符號系統(tǒng)),由此形成了人類歷史上從未有過,此后卻成為標(biāo)準(zhǔn)行為方式甚至文明程度標(biāo)志的人行道、快慢車道、橫道線以及最重要的“紅燈停綠燈行”這一整個社會系統(tǒng),甚而將一種全新的日常時間-空間感知模式內(nèi)化為我們的新本能。
縱觀整個技術(shù)史,具有真正革命性的技術(shù)革新(而非日常的小改進)從來不是完全適應(yīng)人類當(dāng)下的生活和認知模式,相反,它打破絕大多數(shù)人生活、工作、學(xué)習(xí)和思維的既有慣性。從來是人去適應(yīng)技術(shù)的飛躍(而技術(shù)飛躍的核心訴求是生產(chǎn)率的提高,無論你是否認為它“非人性”或“反自然”),而非技術(shù)完全按照人的(舒適區(qū)范圍內(nèi)的)需求來發(fā)展。如果認為技術(shù)以一種不符合人類中心論的方式自行演化就會從根本上損害甚至消滅人類,那才是對人類真正的侮辱,因為這種成見(哪怕它出自海德格爾)對人類實際上已經(jīng)表現(xiàn)出的適應(yīng)能力是如此缺乏信心,并因而恰恰徹底貶低了人類。
3 從字謎游戲到大語言模型
索緒爾最后那幾年,除了上課,幾乎放棄了純語言學(xué)的研究,而傾心于建立一門當(dāng)時還無人問津的學(xué)問:符號學(xué)。語言學(xué)在他看來只是符號學(xué)中最具代表性的一個子項。但是符號學(xué)實際上可以包羅萬象,從中介的角度看,一切都只不過是一切的符號/表征——一切事物都互為符號/表征。作為最初的嘗試,索緒爾出人意料地、至今都讓人迷惑不解地花大精力于一件幾乎堪稱“偽科學(xué)”的事業(yè):他留下了大量從未發(fā)表的筆記,足足有幾厚本,用以研究拉丁詩人——比如《物性論》作者盧克萊修——作品中隱藏的“字謎”。他是老糊涂了嗎?
當(dāng)然不是。當(dāng)索緒爾在像《物性論》那樣的“經(jīng)典”文本中搜索字謎,并或許將字謎的“言外之意”放在至少與文本表面的意義相當(dāng)(或許還更高)的地位上時,文本通常的意義表達就被削弱,甚至被“解構(gòu)”了,因為有一種更深刻的“隱義”出現(xiàn)在文本顯明的意義背后,并且它是用打亂通常的具有“可理解性”的語言交互模式的方式出現(xiàn)的。語言不再是僅僅基于詞的意義及其(依語法進行的)連接而建構(gòu)起來的系統(tǒng),而是有各種完全不同的用法,有最奇特的可能性。或許,最后幾年的索緒爾已經(jīng)不太情愿地接近于這樣一個目標(biāo):預(yù)先顛覆由他自己一手建立起來的結(jié)構(gòu)主義語言學(xué)/符號學(xué)。“解構(gòu)”的種子已經(jīng)預(yù)埋在他對字謎游戲異乎尋常的興趣中(可對比晚期維特根斯坦用“語言游戲”來取代邏輯語法的權(quán)威性)。
讓我把話講得更明確一點:GPT之類的“大語言模型”反向地告訴我們,我們過往千年歷史中發(fā)展出來的種種以意義及其表達和理解為核心的語言學(xué)理論,以及建立在這些理論基礎(chǔ)上的各種自我認知模式,本質(zhì)上都是一些極其不靠譜的猜想。維特根斯坦在批判奧古斯丁時準(zhǔn)確指出了這種語言理論的“命門”——“每個詞都有一個意義,意義與詞語相對應(yīng),意義就是詞語代表的對象”(《哲學(xué)研究》)。
然而語言的實質(zhì)根本不是意義及其表達和理解,而是看上去完全不相干的一樣?xùn)|西:頻率。
兒童學(xué)說話,并不是在“理解意義”的基礎(chǔ)上搭配能指與所指,并通過記憶來最終掌握詞句。相反,他們大多數(shù)情況下是在無意識地“統(tǒng)計”周圍的人施于某種所指周圍的語音的頻率,通過分辨頻率(尤其是——按照索緒爾的符號任意性理論——頻率之間的差異)來學(xué)習(xí)這種搭配,并進而構(gòu)造出“意義”。的確家長會指著父親訓(xùn)練他喊“爸爸”,指著一條狗告訴他“這是狗”,但這種低效的(美其名曰“教育”的)習(xí)慣行為遮蔽了兒童學(xué)習(xí)語言的主動性和真正方式——他并不是在你教他學(xué)說話的時候才學(xué)說話,他每時每刻都在學(xué)說話,并且在你沒教他的絕大部分時間里,他是用另一種——更好的——方式在學(xué)說話。
這就是為什么,以一種意義+語法的通行方式學(xué)習(xí)外語總是很困難,無可避免地要經(jīng)歷痛苦的死記硬背,而你把一個小孩扔到陌生的外語環(huán)境中,他卻能比你高效幾倍甚至幾十倍地掌握這門外語,并運用得游刃有余。因為他絕不會也不需要記住所有的語法和每個單詞的意義,他在一個活的環(huán)境中體會和(無意識地)“統(tǒng)計”所聽到的詞句及其各種搭配的頻率,通過(就像收音機的)“調(diào)頻”,來找到最合適的運用該語言的方式,然后通過運用過程的不斷反饋逐漸“錨”住各種浮動的、靈活的“意義”,以形成一個意義的“區(qū)域”,而非單一的、確定的意指。雅克-阿蘭·米勒甚至斷言:“語音是符號當(dāng)中所有不參與意義效應(yīng)的東西。”
“意義”不是現(xiàn)成的,不是指定給符號的,更不是能指與所指之間的一一對應(yīng)。意義即頻率——某一相對固定的意義,本質(zhì)上不過是通過大量操作行為(就像來回調(diào)節(jié)收音機的旋鈕),而在特定調(diào)諧頻率上建立起來的某個“頻道”。
4 價值還是意義?
德里達在《聲音與現(xiàn)象》中對索緒爾的符號(以及構(gòu)成符號的能指/所指區(qū)分)作了一個切中肯綮的批評,指出他對作為能指的“聲音形象”的使用依然是實在論性質(zhì)的,由此而批評他的“語音中心主義”,正是由這種“語音中心主義”導(dǎo)向了德里達全力批判的“邏各斯中心主義”——講人話,其實就是說萬事萬物都有確定的由上帝或類似上帝的“中心”來決定的“意義”。
但是德里達似乎忽視了索緒爾在談及符號/語言的價值和意義時,不時出現(xiàn)的猶疑和模棱兩可。我的理解,索緒爾實際上已經(jīng)明確提出了用“價值”——作為一種經(jīng)濟學(xué)中的價值概念的有效類比——來替換“意義”,但語言使用的巨大慣性使得“意義”這個詞仍無處不在,無法完全避免其使用,也無法將其從價值領(lǐng)域中徹底驅(qū)逐出去。索緒爾的最終策略似乎是退而求其次地限制“意義”的使用場合,并擴大“價值”的普適性——“意義”只在一種趨向于固定的、后發(fā)的意義上被使用,而“價值”,基于基本的共時性差異原則,是符號的根本屬性。
索緒爾為什么要向一直被認為以“意義”為核心的語言學(xué)中,引入粗看似乎格格不入甚至不知所云的“價值”概念?
讀過點經(jīng)濟學(xué)的人大概都知道“使用價值”和“價值”之間的區(qū)分,前者被認為是一物的“自然屬性”(這種簡單化的觀點當(dāng)然是有很大問題的,這里存而不論),后者則是“社會屬性”。無論如何,價值不是自然的、實在的東西,而只能是基于“視差”的建構(gòu)。比如使用價值相同的兩只包,一只無牌,一只貼上了愛馬仕的標(biāo)志,后者立即因奢侈品的身份以及購買者的社會等級等,而被認為有更高的價值。使用價值基于實用功能,價值卻僅僅基于差異和對比。
索緒爾明確將經(jīng)濟學(xué)上的“價值”概念引入語言學(xué),就是為了消解傳統(tǒng)上對“意義”(約略相當(dāng)于使用價值)的極端強調(diào)。一個詞、一句句子的“意義”通常是固定的,哪怕“一詞多義”,也只是多出有限的幾個意思、需要更多一點的死記硬背而已,可以說依然具有確定性。但索緒爾語言學(xué)的首要原則,即符號任意性原則,從根源上就不支持這種能指與所指之間的固定搭配,不僅一對一的搭配不支持,一對多或多對一也不支持。正如喬納森·卡勒指出的,實際上無論能指還是所指,不僅它們之間的搭配是任意的,它們各自自身也是任意的,僅僅遵從差異原則,也只能從差異的角度得到闡明。
我們對事物(特別是詞句)固有意義的迷思(以及迷戀,或者說因迷思而迷戀),由索緒爾以其結(jié)構(gòu)語言學(xué)肇始,而由以GPT為代表的大語言模型的高歌猛進,基本完成了整個消解的歷程。
這恐怕是蓋瑞·馬庫斯之類自以為是的符號主義者不曾了解,并且恐怕永遠不會了解的。
5 象形、語法與權(quán)力
不妨再作一些小小的引申,提個就“常識”而言頗有些古怪的問題:中國文字從一開始就是,始終都是象形文字嗎?
這個問題,因為中文在世界上以及在中國人自己學(xué)習(xí)語文的過程中,一向以象形的形象出現(xiàn)和被論及,似乎是一件當(dāng)然+實然之事,因而極大地遮蔽了其非反思性。我們可以嘗試反過來想一想:如果中國文字一開始同樣是一種表音符號呢?如果其明確的象形功能反而是后來在使用中逐漸變異出來,并由比如劉安、許慎等早期雜家、小學(xué)家回溯、附會到語音上去,而越來越完整地構(gòu)造起來的呢?
由(原始部落的巖畫之類)圖畫到(象形)文字的貌似理所當(dāng)然的進路,其實只是想當(dāng)然,必須經(jīng)受類似休謨對因果關(guān)系所進行的批判與解構(gòu)。因為很簡單,語言最初必定只能基于語音(想想嬰幼兒的“牙牙學(xué)語”,而學(xué)會寫方塊字,那是晚得多的事情了),也就是說,不管西文還是中文,最初必是人講出的“言語”——趙元任先生早就指出過:
“關(guān)于中國文字跟西洋文字的比較,有一個很通行的一個通俗的說法,說中國文字是標(biāo)義,西洋文字是標(biāo)音的。其實中國文字也未始不標(biāo)音,字母文字也未始不標(biāo)義。”(《語言問題》)
所以趙先生極具洞見地指出,中國文字“跟世界多數(shù)其他文字的不同,不是標(biāo)義標(biāo)音的不同,乃是所標(biāo)的語言單位的尺寸不同”,中國文字是“一字一言”,比如用“書”這一個字去標(biāo)發(fā)音為shu的那個東西;而拼音文字是“一字一音”,比如book,就要用4個字母去標(biāo)4個音。
所以即便在象形文字中,依然很大程度上保留了表音的功能。而語音(能指)與事物之概念(所指)之間的關(guān)系,正如索緒爾斷言的(雖然在《普通語言學(xué)教程》里他小心翼翼地區(qū)分了表音文字和以漢語為代表的所謂表意文字,生怕自己會冒犯一種看似完全異質(zhì)的語言),必然是任意的和約定俗成的(沿用上面的例子,一本“書”,你既可以稱之為“書”,也可以稱之為“book”“libro”“книга”,等等,無論怎么發(fā)音、怎么寫,都不過是約定俗成,字詞的音形與含義之間并沒有必然的聯(lián)結(jié));至于象形這種具有確定性的映射關(guān)系,只能是后來添置上去以鎖死“語義”的一種裝置。
明白了這一層,你或許就會恍然它為什么必然與一種特定的統(tǒng)治方式密切勾連——比如秦始皇的“書同文” ,就是影響最深遠的對于“語言確定性”的規(guī)訓(xùn);但其實比秦篆早得多的甲骨文,就已經(jīng)是殷商王朝統(tǒng)治者在用象形盡可能鎖死語言上走出的關(guān)鍵一步了。甲骨文完全是王家占卜語言,為了確定王家命運的未來,其“史官”開始在象形化的刻符(類似賈湖出土的早期刻符,或者良渚、龍山等文化出土的零星“陶文”,之所以難以被確認為文字,很大程度上是因為它們在“象形”上反而遠遠不如甲骨文明確,無法建立起象形的系統(tǒng)從而得到一定程度的釋讀,但如果它們只是表音符號或是像楔形文字那樣的音意混合符號呢?)與語音間建立系統(tǒng)的關(guān)聯(lián)性,從而通過這種確定的賦形,將聲音的“意義”最大限度地固定下來,并相信因此而能通過掌控與事物一一映射的圖像性符號,即所謂象形文字,來最終掌控住所有事物及其命運(“倉頡造字”的傳說——最早見于《荀子》,前此的文本中從未提及——中所謂“天雨粟,鬼夜哭”,或可解為象形化的束縛,使得所有飄忽的、不確定的、無法“一言以蔽之”的事物感到悲哀吧)。
有趣的是,中國人一旦用象形文字很大程度上鎖住了語義(當(dāng)然不可能完全鎖住,語言在具體的人的具體使用中所產(chǎn)生的創(chuàng)造性是無法徹底掌控的,各種通假、轉(zhuǎn)義、借語、“習(xí)非成是”,都會打破固有系統(tǒng)),就不再需要另一樣起類似功能的東西:語法。所以在數(shù)千年的歷史中,中國的文人一向講究“文法”(遣詞造句之法),而不怎么在意語法(字詞及其連接的精確性和邏輯性)。更需要語法的,是印歐語系那樣的字母文字、拼音文字,因其切分單位更?。?ldquo;一字一音”),造成組合的自由度和可能性(用索緒爾的術(shù)語來說,即“創(chuàng)新”能力)大大超過中文(趙元任先生就曾坦言“整個的音變這種語法上的作用啊,在中國語言,從很古很古就失掉了產(chǎn)生力了,現(xiàn)在只成遺跡的現(xiàn)象了”),就格外有強加另一重裝置來加以約束的需求。強調(diào)規(guī)則性和邏輯性的語法就是這樣一種生產(chǎn)穩(wěn)定性的裝置,一種人為的強制機構(gòu),語言被迫因此進入一種長期的、變化緩慢的穩(wěn)態(tài)。這種穩(wěn)態(tài)與生產(chǎn)、生活方式及意識形態(tài)這幾種穩(wěn)態(tài)相互交疊、相互作用,共同造就一個可以稱之為“歷史時期”的社會相對穩(wěn)定期。
典型的例子,是存世最古老的語法論著《波你尼經(jīng)》(即《八章書》)。據(jù)多羅那他《印度佛教史》記載,婆羅門波你尼是難陀王的“友伴”,雖然不清楚這里指的是難陀王朝的哪一位王,但難陀王朝自公元前364年延續(xù)至前324年為孔雀王朝所滅,占據(jù)了公元前四世紀(jì)中后期的40年,這與一般認為的波你尼生活年代相符,或許他也“有幸”經(jīng)歷了亞歷山大大帝史詩級的入侵(公元前327-前325年)和其后空前強大的孔雀王朝的序幕??傊隳嵘畹臅r代是一個軍事強人和超級強權(quán)輩出的時代——難陀王朝擁有龐大的軍隊,已初現(xiàn)統(tǒng)一印度的趨勢,雖被更霸道的亞歷山大大帝入侵所打斷,但很快孔雀王朝便奪過了接力棒,建立了印度歷史上最大的帝國——一種高度制式化的語言與強權(quán)間如影隨形的關(guān)系,恐怕中外皆然。
但語言的天然傾向——基于其頻率及任意特性——是完全自由和偶然的劇烈變動,一旦穩(wěn)定裝置受到較大的沖擊,各種限制被迫松弛,語言立刻恢復(fù)其本性,發(fā)生各種急劇的完全出人意料的變化,最近20年的網(wǎng)絡(luò)語言便可以為證。
《普通語言學(xué)教程》
商務(wù)印書館1980年11月版
《索緒爾第三次普通語言學(xué)教程》
上海人民出版社2018年6月版
各大平臺押注的搜索,是下一個流量風(fēng)口嗎?
這是一場會后“無待辦”大型腦爆。
使用通義靈碼AI程序員,一名程序員僅需10分鐘就能完成整個開發(fā)過程,大幅提升業(yè)務(wù)開發(fā)效率。
對中國AI企業(yè)來說,一些好的變化正在發(fā)生,也有更多挑戰(zhàn)等待2025年去回答。
從速從嚴打擊了一批利用AI仿冒知名人士進行不當(dāng)營銷、惡意博取流量的違規(guī)行為,并針對相關(guān)情況開展專項治理。