請看《國際電子商情》記者第一時(shí)間為您帶來(lái)魏教授的現場(chǎng)演講實(shí)錄:人工智能是一個(gè)老的新話(huà)題。之所以現在人工智能的話(huà)題又火起來(lái),是因為兩個(gè)事情,谷歌研發(fā)的阿爾法Go和世界兩位頂尖棋手的對弈。第一件事是與韓國棋手李世的對弈,李世石成為唯一戰勝阿爾法Go的棋手。半年后,世界排名第一的柯潔說(shuō)李世石不行,我來(lái)下。結果是0:3,柯潔痛哭流涕。所以這兩件事對人工智能的推動(dòng)非常重要。
我們很多人認為阿爾法狗代表人工智能取代人腦的重要證據。這個(gè)事情沒(méi)有這么悲觀(guān),最開(kāi)始阿爾法狗是希望在沒(méi)有人類(lèi)干預的情況下戰勝人類(lèi)棋手。但其實(shí)在兩場(chǎng)棋局中還是有人干預。還有一件事是,IBM的人工智能計算機做了一場(chǎng)知識競賽。上個(gè)月我去了一趟IBM看了一下這個(gè)計算機,它的智力遠遠高于阿爾法狗。一個(gè)是人工智能的初創(chuàng )企業(yè)在大大增加,第二個(gè)是人工智能企業(yè)的融資額達到了50億美元。我們集成電路除了并購之外,要想在初創(chuàng )企業(yè)融資增速非???。所以可以看到風(fēng)險投資很活躍,說(shuō)明這個(gè)行業(yè)是在上升期。
人工智能最重要的是預測未來(lái)
盡管如此,人工智能是老的新話(huà)題。因為上個(gè)世紀50年代人工智能就開(kāi)始提出了。主要是為了讓機器展示智能模仿認知功能,如感知、推理、學(xué)習、及問(wèn)題解決。1980年出現了機器學(xué)習,這是實(shí)現人工智能的主要途徑,主要是學(xué)習并開(kāi)展數據驅動(dòng)的經(jīng)驗預測。2010年出現了深度學(xué)習,這是機器學(xué)習的一個(gè)分支,他是要模仿人腦通過(guò)人工神經(jīng)網(wǎng)絡(luò )獲得高階學(xué)習機會(huì )。
傳統的數據挖掘主要是描述發(fā)生了什么,比如問(wèn)一個(gè)問(wèn)題,哪個(gè)產(chǎn)品在過(guò)去一年最賺錢(qián),這個(gè)是最容易統計的。還有一個(gè)機器學(xué)習是預測,通過(guò)外推數據以預測行為和事件,是通過(guò)概率來(lái)分析。比如某個(gè)客戶(hù)在未來(lái)一年中最可能買(mǎi)哪個(gè)產(chǎn)品?而到了最后的一個(gè)環(huán)節就是決策,主要是領(lǐng)先的數據被互聯(lián)網(wǎng)公司應用。比如為了最大化下一年的銷(xiāo)售,產(chǎn)品的最佳售價(jià)是多少?
通過(guò)這三個(gè)清晰的問(wèn)題可以看到三者之間的差距。所以人工智能最重要的是要預測未來(lái),所以我們在對人工智能的理解要有正確的認識。
人工智能的基礎和根本是芯片
目前非常多的初創(chuàng )企業(yè)進(jìn)入人工智能領(lǐng)域,機器學(xué)習的創(chuàng )業(yè)空間正在擁擠起來(lái)。
工欲善其事必先利其器,人工智能的根本是智能芯片。離開(kāi)芯片你沒(méi)辦法找到第二種人工智能的實(shí)現方法,未來(lái)的至少10年內你找不到可替代芯片的方法。如果你能找到,那我恭喜你。
從計算能力看,目前主要的人工智能芯片是GPU。GPU的計算能力比CPU大概提高了5倍,存儲能力是2倍到4倍。目前Intel占了71%的市場(chǎng),Nvidia占了16%。Nvidia在分立式GPU上占據主要優(yōu)勢。而人工智能主要應用于分立式GPU。但是目前任何一種方案無(wú)法用于本地移動(dòng)終端,因為功耗太大。還有一種芯片方案是通過(guò)FPGA,與純CPU/SW相比性能提高5~10倍,功耗下降到了GPU環(huán)境的20%。
另一種是Google提出的TPU概念,與GPU相比,用較低的精度提高性能,功耗下降到GPU環(huán)境的10%。還有一個(gè)是NeuRAM,我個(gè)人認為這個(gè)學(xué)習方式很可能是未來(lái)的發(fā)展方向。還有一個(gè)是Micron,用的是MISD的并行架構,DRAM的工藝,這個(gè)開(kāi)始有點(diǎn)意思。
類(lèi)人腦芯片才是最終方向?
我更愿意介紹是IBM的TrueNorth。這樣一顆芯片,我在IBM訪(fǎng)問(wèn)的時(shí)候有很大的震撼。這個(gè)完全仿照大腦的做法,能力相當高,功耗只有65毫瓦,它的學(xué)習能力極強。
下一步IBM的最終目標是希望建立一個(gè)完全仿照大腦的類(lèi)鬧計算機。如果這能實(shí)現,成本不高,這有可能真正實(shí)現所謂人形機器人。今后對我們進(jìn)入老齡化的時(shí)代影響是非常大的。這個(gè)方面會(huì )實(shí)現最大的計算量。
談到智能芯片,什么是智能芯片呢?是不是IBM的這個(gè)就是智能芯片?首先我們要看如何來(lái)理解智能或者智慧?智慧是人特有的一項東西,它包括思考和解決問(wèn)題的能力。
人類(lèi)的智能整個(gè)環(huán)節包括感知、傳輸、存儲、處理、決策、傳輸、執行。決策這個(gè)環(huán)節又分為分休、計算、判斷、經(jīng)驗知識。前后兩端從感知、傳輸到后端的傳輸、執行都不是智慧。而中間的才算是智慧。
首先我們看人類(lèi)大腦,140億個(gè)神經(jīng)元。IBM要做的類(lèi)腦芯片大概100多億個(gè)神經(jīng)元,我們看到兩者之間有很接近的地方。工作頻率兩百赫茲,也不高。最奇怪的是,我們吃點(diǎn)什么米飯、豆腐、白菜,20瓦的功耗也可以完成這些功能。我們的大腦皮層面積是0.25平方米,這是自然進(jìn)化而來(lái)的。
我們得過(guò)世界第一的天河計算機,用了27億個(gè)芯片,比人腦還要小一點(diǎn)。傳輸速度是每秒中30萬(wàn)公里,它的頻率是4.2GHz,由于可以把很多運算堆在一起,可以做很多的運算,但是功耗、占地面積都非常驚人。所以這兩個(gè)對比,人腦和機器之間,要真正用機器實(shí)現人腦功能恐怕不容易。我們猜想人腦怎么工作的呢?出現一個(gè)事件怎么辦?首先要想象特征,我們怎么認出一個(gè)人?他的特征牢牢的出現在我的腦海中。我出現了記憶,做出決策,然后做出行動(dòng)。這個(gè)過(guò)程是一個(gè)循環(huán)往復的過(guò)程。
當然,有可能我們見(jiàn)到的是一個(gè)陌生人,我記憶中不存在,我現需要做一個(gè)決策。然后把行動(dòng)驗證我的記憶是否是對的。所以在不斷的往復過(guò)程中,我們在不斷的學(xué)習加深印象。這個(gè)過(guò)程中也許我見(jiàn)一個(gè)人,幾分鐘就有印象。所以學(xué)習中會(huì )有長(cháng)久的迭代過(guò)程。所以計算是非常重要的。
什么芯片才算人工智能芯片?
人工智能芯片的幾個(gè)要素:
首先一定要可編程,這樣才能適應算法的演進(jìn)和應用的多樣性。
架構的動(dòng)態(tài)可變性,沒(méi)有一個(gè)芯片可以百分之百石英所有的算法。
要有架構的變化能力,最好小于10個(gè)時(shí)鐘周期,最好小于1個(gè)時(shí)鐘周期。
高計算效率,指令這樣的低效率架構就不要做了。
最重要的是,高能量的效率,我覺(jué)得理想情況下,每瓦功耗低于5萬(wàn)億次。如果做不到這一點(diǎn),真正做起來(lái)就會(huì )很難受。
有些應用功耗要小于1mw,有些東西要求速度足夠快,比如視頻識別,一些監控識別要做到每秒鐘大于25幀。
最后是低成本,你要做消費類(lèi)產(chǎn)品價(jià)格不能搞。
體積小,也是為了能在移動(dòng)設備上。
應用開(kāi)發(fā)要簡(jiǎn)便,不要讓做應用開(kāi)發(fā)的工程師學(xué)習芯片設計知識。我們首先不知道人腦是怎么完成計算的,我們現在是用軟件+芯片構成的類(lèi)腦軟件。包括智能軟件和智能芯片。以前我們做芯片跟軟件關(guān)系不大,但現在的一個(gè)方向是通過(guò)軟件來(lái)定義芯片。
大家說(shuō)了,FPGA不行嗎?我們把FPGA的10大缺陷,1,細粒度,必須實(shí)現比特級的運算,第二配置信息量大,配置時(shí)間需要十幾毫秒到即使毫秒。另外是靜態(tài)編程以及邏輯不可復用。面積效率低。能量效率也很低,大量邏輯利用率低,需要特種工藝。FPGA需要最先進(jìn)的制造工藝。另外應用者必須具備電路設計經(jīng)驗。最后是成本高昂,所以FPGA價(jià)格在及時(shí)到幾萬(wàn)美元一片。所以目前的標準來(lái)看,目前CPU+GPU、CPU+FPGA、CPU+ASIC的芯片結構都不是最好的人工智能芯片方法。我們認為FPGA的人工智能目前最主要的客戶(hù)現階段應該是互聯(lián)網(wǎng)企業(yè),而互聯(lián)網(wǎng)企業(yè)基本上沒(méi)有什么量。你要用ASIC還是FPGA你一定要通過(guò)電路設計這條關(guān)。所以這個(gè)過(guò)程中大量的降低了大家的應用門(mén)檻。
軟件定義芯片成方向,AI芯片要讓手機能用
那么到底該怎么做?這里是一個(gè)硬件和軟件的拓撲架構,這個(gè)時(shí)候從計算的效率最好。功耗不見(jiàn)得最好。軟件的規??梢匀柿x達,但硬件規??偸怯邢薜?。我們只好將硬件分塊,不斷將軟件一塊塊進(jìn)來(lái)運行。這就要求解決不同的問(wèn)題,要求計算硬件架構和功能動(dòng)態(tài)的、實(shí)時(shí)地跟隨軟件的變化而變化。最好能在一個(gè)時(shí)鐘周期,最多不超過(guò)10個(gè)時(shí)鐘周期改變。
數據會(huì )根據控制單元的要求來(lái)配置計算單元,這樣的結構是通過(guò)C語(yǔ)言來(lái)實(shí)現計算,跟傳統的計算機語(yǔ)言是一樣的,但是編譯器有很大的不同。
這是非常經(jīng)典的馮諾依曼的計算結構。我們把Memory放進(jìn)去,把I/O分開(kāi),我們到現在為止沒(méi)有改變任何馮諾依曼體系的結構。
所以如果把可重構計算與經(jīng)典計算進(jìn)行比較,經(jīng)典結構是剛性的,而可重構計算是函數化的柔性的。在性能上偏重于A(yíng)SIC,靈活性上偏重于處理器。兩者兼而有之。
我們利用這樣的結構實(shí)現了可重構的神經(jīng)網(wǎng)絡(luò )計算。Thinker這是去年在深圳高交會(huì )上發(fā)布的??赡茉龠^(guò)半個(gè)月會(huì )有一些新的消息出現。利用這個(gè)結構,來(lái)相應不同應用的神經(jīng)架構網(wǎng)絡(luò )。這樣一個(gè)結構是什么樣的?我們的芯片用了TSMC 65nm的LP工藝,很小的Memory,很低的工作頻率,峰值性能做到409個(gè)GOPS。所以這樣一個(gè)小小的東西實(shí)現的性能如此之高,如果跟其它相比,可以發(fā)現能量效率至少高了5倍。
我們認為目前的人工智能芯片還不能進(jìn)入手機,如果讓芯片進(jìn)入手機,才真正能獲得新生。如果只給互聯(lián)網(wǎng)企業(yè)用,一定沒(méi)有量。所以不解決進(jìn)入手機、家庭,人工智能芯片沒(méi)有希望。所以要解決功耗、成本問(wèn)題。
國內的人工智能芯片和國外到底有多大差距?
最后總結,芯片是軟件性能載體,一定要滿(mǎn)足軟件不斷變化的計算需求。有人問(wèn)我,目前國內的人工智能芯片跟國際上有多大差距? 我的回答是:應用上跟國際同行一個(gè)水平線(xiàn)。方法上落后。芯片上差半步。
但這個(gè)差半步并不意味著(zhù)快成功了,中國有句古話(huà)叫“行百里而半九十”。也就是最后這10%要花費的精力可能要花費一半甚至以上的精力??赡芫筒钸@10%,我們就永遠無(wú)法實(shí)現。所以我們應用關(guān)注芯片的基礎技術(shù),我們在芯片的能力上還有差距。如果克服不了這個(gè)差距,不要想超越人家。