亚洲中文字乱码免费播放,精品国产日韩专区欧美第一页,亚洲中文有码字幕青青,亚洲综合另类专区在线

          首頁 > 新聞 > 專題文章

          分享到微信

          打開微信,點擊底部的“發(fā)現(xiàn)”,
          使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

          未來AI一定超越人類認知上限丨數(shù)據(jù)科學50人?鮑捷

          DT財經(jīng) 2019-12-30 16:52:53

          作者:吳昊    責編:王藝

          鮑捷博士,文因互聯(lián)聯(lián)合創(chuàng)始人兼CEO,師從語義網(wǎng)之父James Hendler、萬維網(wǎng)之父Tim Berners-Lee等大師,因為對科研商業(yè)落地的追求,鮑捷踏上了數(shù)據(jù)科學的創(chuàng)業(yè)之路。

          鮑捷博士,文因互聯(lián)聯(lián)合創(chuàng)始人兼CEO,師從語義網(wǎng)之父James Hendler、萬維網(wǎng)之父Tim Berners-Lee等大師,因為對科研商業(yè)落地的追求,鮑捷踏上了數(shù)據(jù)科學的創(chuàng)業(yè)之路。

          知識圖譜的本質(zhì)是一種數(shù)據(jù)科學

          初見鮑捷,一個典型的技術男形象,穿著一件印有各種計算機技術名詞的套頭衫,背著電腦,笑起來很具親和力。

          2013年,鮑捷和一眾伙伴在硅谷創(chuàng)立了文因互聯(lián)的前身Memect,從CTO到現(xiàn)在的CEO,是角色的變化,也是思維的變化,用他自己的話說,他從科學家思維轉(zhuǎn)向工程師思維,再到架構(gòu)師的思維,又轉(zhuǎn)向產(chǎn)品經(jīng)理思維,然后轉(zhuǎn)變?yōu)橐粋€組織者,現(xiàn)在天天想的是怎么“賣東西”。

          美國是數(shù)據(jù)科學的發(fā)源地,對于一位長期在美國做科研的人來說,鮑捷對數(shù)據(jù)科學很熟悉。在鮑捷的印象里,數(shù)據(jù)科學一直都存在,以前只是統(tǒng)計和分析,只不過當時在美國有人用Excel做,有人選擇寫腳本,有人寫程序來實現(xiàn)。如今,數(shù)據(jù)科學家興起,這個職業(yè)的光譜也非常寬泛,從交互、BI(商業(yè)智能)到機器學習,只要是用數(shù)據(jù)來解決問題的都是廣義上的數(shù)據(jù)科學家。

          數(shù)據(jù)科學的興起與如今海量的數(shù)據(jù)有直接關系。鮑捷解釋,上世紀70年代之前是沒有數(shù)據(jù)工程的,70年代開始有了第一代的數(shù)據(jù)庫,然后緩慢普及,直到80年代,在一幫極客的推動下,電子表格興起,從VisiCalc到LOTUS 1-2-3,再到現(xiàn)在Excel,電子表格越來越普惠和大眾化,并且開始建立自己的電子表格語言,形成結(jié)構(gòu)化數(shù)據(jù)。再之后電子表格也滿足不了數(shù)據(jù)分析的需求了,“數(shù)據(jù)科學”應運而生。

          (圖片說明:電子表格發(fā)展歷史 資料來源:The Data Labs)

          “原本,我們只處理常規(guī)數(shù)據(jù),隨著21世紀互聯(lián)網(wǎng)的興起,數(shù)據(jù)越來越海量,比如90年代語義網(wǎng)運動,2010年之后的大數(shù)據(jù)運動。伴隨著社交網(wǎng)絡的出現(xiàn),數(shù)據(jù)量暴增,企業(yè)內(nèi)的數(shù)據(jù)也開始集成,同時,關聯(lián)開放數(shù)據(jù)(Linked Open Data)與政府開放數(shù)據(jù)(Government Open Data)等運動,共同造就了一個大數(shù)據(jù)時代。”鮑捷說。

          也正是海量數(shù)據(jù)的出現(xiàn),才有了數(shù)據(jù)科學的極大發(fā)展。鮑捷研究的是“知識圖譜”,在他的認知中,知識圖譜本質(zhì)就是關于“有智能的”數(shù)據(jù)的科學,只是其中的數(shù)據(jù)分為“死”數(shù)據(jù)和能夠生成數(shù)據(jù)的“活”數(shù)據(jù)。

          “如果把數(shù)據(jù)看成一個點,數(shù)據(jù)和數(shù)據(jù)之間有著眾多的關聯(lián),如果我們擁有了某些特定的數(shù)據(jù),我們就能推理和發(fā)現(xiàn)數(shù)據(jù)與數(shù)據(jù)之間的關系。能在數(shù)據(jù)之間建立新聯(lián)系的數(shù)據(jù),我們就稱之為知識。”鮑捷解釋道。

          這種“能產(chǎn)生數(shù)據(jù)的數(shù)據(jù)”,就是知識。它是一種“結(jié)構(gòu)化數(shù)據(jù)”,通過這些數(shù)據(jù)可以把一些常規(guī)的分析工作讓機器自動完成。在這一點上,它和傳統(tǒng)數(shù)據(jù)庫的分析是不同的,它是盡量讓智能體現(xiàn)在數(shù)據(jù)中,而不是代碼中。

          所以,知識圖譜的本質(zhì)就是研究怎么把智能直接保存為數(shù)據(jù)的一種科學。

          起初,人類構(gòu)建的知識用文字存儲在網(wǎng)絡中,典型的例子就是維基百科、百度百科等知識庫,但早期能用到的信息非常有限。伴隨著最近5年自然語言處理技術的發(fā)展,通過實體提取、關系提取等技術打造知識圖譜,在金融、法律及醫(yī)療等特定場景上證明是可行的(達到工業(yè)級水平的容錯)。

          鮑捷補充道,在沒有知識圖譜之前,技術人員把知識寫入程序之中,只能用知識編輯器,比如 CYC 公司從1984年開始手工構(gòu)造知識庫,成本極高。當知識越積越多時,這樣的寫入就非常不經(jīng)濟了,后來知識表示語言(Knowledge Representation)被發(fā)明出來,用以表達更為復雜的知識結(jié)構(gòu)。最終,從知識表達中抽象出現(xiàn)的知識工程越發(fā)大眾化,便形成了今天的知識圖譜。

          從師出名門到商業(yè)落地

          1988年,還在上小學的鮑捷就對計算機有所了解。那時學校唯一的機房里,陳列的一臺臺電腦著實讓他著迷。到了高中,鮑捷就成了班上的計算機課代表。

          90年代,鮑捷考上了合肥工業(yè)大學,師從高雋教授(現(xiàn)任合工大學術委員會副主任、秘書長),開啟了自己的計算機科學學術之旅。

          合工大的電子工程背景為他打下了工程思維的基礎。直到現(xiàn)在,當文因互聯(lián)面試技術人員的時候,鮑捷都會守在最后一關,拋出一些工程類的問題,考驗應聘者的工程思維能力。比如卷積神經(jīng)網(wǎng)絡背后的工程原理、邊緣檢測的原理等等。要想理解這些技術原理,必須有換個角度思考的能力,如理解“信息”、“頻率”這些工程概念。

          “計算機科學和電子科學都是研究信息,電子科學最初研究的是連續(xù)信號,計算機科學研究離散信號,但深入以后會發(fā)現(xiàn)兩者有深刻的對應關系。我很感謝我的那段電子工程的教育背景,讓我想明白了計算機科學的很多問題。”鮑捷說。

          鮑捷之所以如此看中工程學,與當下人工智能的發(fā)展不無關系。人工智能在過去的60余年,經(jīng)歷了三起兩落,而每一次人工智能獲得的長足進步,都不是因為理論研究的質(zhì)變,而是在逆境中融入了工程思維,用工程手段實現(xiàn)了突破。

          鮑捷解釋道:“比如推理機在90年代發(fā)展的停滯,決策樹的算法難以突破等,最終,都是應用了包括剪枝原理等工程方式來解決的。”

          合工大研究生畢業(yè)之后,鮑捷又陸續(xù)在艾奧瓦州立大學、倫斯勒理工學院完成了博士與博士后項目,并在麻省理工學院(MIT)完成了一年半的分布式信息組訪問研究員的工作。高雋教授領他進入了計算機科學的研究之門,在艾奧瓦州立大學讀博時的導師Vasant Honavar(現(xiàn)賓州州立大學教授)又讓他進一步認識了什么是世界頂尖的學術研究。

          初到美國的鮑捷接觸了大量美國同專業(yè)學生,他覺得自己并沒有比其他人懂得少。但Honavar教授多次帶領鮑捷參與世界頂級學術會議,并將鮑捷送到NSF(美國國家科學基金會)的幾個研討圓桌會中,這讓鮑捷領略了世界級的學術水平。Honava最終將鮑捷推薦給了“語義網(wǎng)之父” James Hendler。

          鮑捷說,Hendler是一個有遠見卓識的大宗師。如果說普通科學家看的是樹上能否長出綠葉的話,Hendler關注的是如何讓樹抽出新枝,長出更多綠葉。

          在倫斯勒理工學院做博士后研究員的鮑捷被Hendler推薦到了W3C(萬維網(wǎng)聯(lián)盟)的OWL(本體網(wǎng)絡語言Ontology Web Language)工作組,與業(yè)界最頂級的科學研究者一起工作,這讓鮑捷受益匪淺。

          而其學術生涯的濃墨重彩還屬為萬維網(wǎng)之父、圖靈獎得主Tim Berners-Lee工作的那幾年。

          在MIT的研究工作中,Tim Berners-Lee讓鮑捷體會到什么是最頂尖的科學家——一個從哲學的層面,用上帝視角看待人類問題的“God”,并影響與顛覆了鮑捷的思維。

          四段學術經(jīng)歷歷練了鮑捷,而他更加感激的是四位“老板”都給了自己足夠的空間與時間,去搗鼓自己的事兒。

          “20多年來,我一直自己找方向,感謝幾位老板給了很大的空間,我這個人又喜歡折騰,這些年的失敗讓自己融會貫通了很多事兒。” 鮑捷流露出學術生涯的真情實感。

          “我不是一個循規(guī)蹈矩的人,一定要做一些事兒出來。”鮑捷曾與世界第一流的科學家一起工作,但卻也曾有著無比的失落感,學術研究有些不食“商業(yè)”的煙火,也缺少了“工程”的落地,遠離商業(yè)戰(zhàn)場的鮑捷毅然決然走出象牙塔,進入了工業(yè)界,但這也是一條極為艱險的路。

          (圖片說明:養(yǎng)貓的鮑捷做團隊內(nèi)部培訓)

          鮑捷的創(chuàng)業(yè)方向依舊是“知識圖譜”。這次他應用到了金融的場景中。

          傳統(tǒng)的金融領域處理的是表格數(shù)據(jù),這是一種結(jié)構(gòu)化的數(shù)據(jù),但目前還有大量的非結(jié)構(gòu)化數(shù)據(jù)需要被理解。文因互聯(lián)做的就是把金融業(yè)的數(shù)據(jù)結(jié)構(gòu)化,并通過自動化流程讓機器處理,最終形成服務,并升級為開放化的服務。

          鮑捷說,前兩步是中臺的后臺化,把以前中臺的業(yè)務用機器來實現(xiàn),中臺實現(xiàn)內(nèi)部資源的調(diào)度。當資源能調(diào)度了,金融機構(gòu)也將走向開放。業(yè)務前臺的開放化,就能實現(xiàn)今天說的開放銀行——從坐商升級為行商。未來的金融將會是由各種開放化服務互聯(lián)起來的“開放調(diào)度系統(tǒng)”。

          截至目前,文因互聯(lián)正為交易所、眾多頭部銀行、資管、證券等機構(gòu)提供知識圖譜的服務,應用在合規(guī)風控、信貸流程自動化、債券風險預警等多個場景。

          社會機器:我們終將去探討AI與人的關系

          鮑捷說:“我小時候愛讀書,最喜歡歷史、生物,現(xiàn)在回頭想想,歷史、生物和計算機三者是通的。”

          美國天文物理學家Max Tegmark在《生命3.0》一書中闡述了生命進化的三個階段,在鮑捷看來,他能分出四個階段——分子進化階段、單細胞階段、多細胞階段、社會機器階段。讀完博士之后,鮑捷把社會機器(由鮑捷導師Hendler發(fā)明)這套進化思維想通了,并在之后一直指導著自己的工作與創(chuàng)業(yè)。

          作為數(shù)據(jù)科學的重要體現(xiàn),人工智能前些年的熱度極高。伴隨著當下資本的退潮與技術發(fā)展的瓶頸,AI寒冬論甚囂塵上。

          “從純科學的角度,知識圖譜在過去十五年沒有任何進步,唯一的變化是工具發(fā)生了變化,成本越來越低;同時,深度學習在過去十五年其實也沒有發(fā)生太大理論變化,發(fā)展的都是工具。這恰恰是一門學科走向?qū)嵱玫臉酥尽?rdquo;鮑捷說。就像中國偉大的高鐵,是無數(shù)機械工程師和電氣工程師的聰明才智的結(jié)晶,盡管力學和電學本身并沒有大的發(fā)展。在他眼中,AI就如同一個擺鐘,每20年一個周期,理性主義(知識圖譜、專家系統(tǒng))與經(jīng)驗主義(機器學習、神經(jīng)網(wǎng)絡)此起彼伏。

          當下,越來越多人開始討論神經(jīng)主義的紅利吃完了,鮑捷解釋:“我自己做過神經(jīng)網(wǎng)絡,經(jīng)歷過低谷,十幾年前把我們打入‘地獄’的東西還沒有走。”在他看來,理論沒有實際突破,那些他曾歷經(jīng)的神經(jīng)網(wǎng)絡的泛化、收斂以及速度等問題只是被工程的方法結(jié)合硬件算力升級和海量數(shù)據(jù)解決了,如果不和其它人工智能方法結(jié)合,我們依然有可能被再次打入“地獄”。

          毫無疑問,AI是未來的一個大方向,也許在未來的三十年,AI依舊是輔助人類的工具。鮑捷認為,人類的記憶力(信息存儲能力)很差,通信速率低下,人與人之間用幾個比特的聲波傳遞信息的效率并不高,“未來會有越來越多的機器幫助我們做中間的協(xié)作。”

          鮑捷的導師James Hendler在其《社會機器》(Social Machine)一書中提出了社會機器的概念,鮑捷的思考亦是如此:現(xiàn)在社會是人組成的,人與人之間開始有機器協(xié)作,機器與機器之間構(gòu)成一個網(wǎng)絡?,F(xiàn)在是互聯(lián)網(wǎng),我們慢慢會發(fā)現(xiàn),人與人、人與機器、機器與機器都會形成網(wǎng)絡,最終的社會機器,就是一個機器與機器連接,人為輔的一個新網(wǎng)絡。

          在面對AI與人類關系的思考中,大部分專家認為機器無法取代人類的原因是,機器只懂識別,沒有人類的認知能力。而鮑捷認為,機器不會擁有人類意識的原因恰恰相反,是因為人的意識并不高級,未來的智能一定會超越人類的認知上限。社會機器將在總體上超越人類社會總體,而非單個個體層面超越。

          數(shù)據(jù)科學50人成員

          鮑捷博士,文因互聯(lián)CEO,聯(lián)合創(chuàng)始人。師從圖靈獎獲得者 Tim Berners-Lee 與 James A. Hendler兩位知識圖譜領域創(chuàng)始人,衣阿華州立大學博士、倫斯勒理工學院(RPI)博士后、MIT訪問研究員。研究領域涵蓋自然語言處理、語義網(wǎng)、機器學習和描述邏輯等。目前任中國中文信息學會語言與知識計算專委會委員,W3C顧問委員會委員,中國計算機學會會刊編委,中文開放知識圖譜聯(lián)盟(OpenKG)發(fā)起人之一。

          關于數(shù)據(jù)科學50人

          “數(shù)據(jù)科學50人”項目是由第一財經(jīng)旗下DT財經(jīng)發(fā)起的中國頂尖數(shù)據(jù)科學從業(yè)者的系列專訪與社群組織,從數(shù)據(jù)科學領域選出最具代表性的50位先鋒進行深度專訪,50人由DT財經(jīng)獨立評審并發(fā)布。

          舉報

          文章作者

          一財最熱
          點擊關閉