上周六,德國柏林IFA2017大展上,華為正式發(fā)布新一代旗艦級移動(dòng)芯片——麒麟970處理器——全球首顆內置神經(jīng)元網(wǎng)絡(luò )單元(NPU)的人工智能處理器。電子模塊
先進(jìn)工藝制造:臺積電10納米
自不必說(shuō),臺積電號稱(chēng)全亞洲最會(huì )賺錢(qián)的制造企業(yè),也是目前摩爾定律扛旗者,蘋(píng)果A1X芯片獨家供應商,全球最先進(jìn)晶圓代工業(yè)者。
2016年8月,華為首款16納米芯片麒麟950正式量產(chǎn)上市,震驚整個(gè)國內電子制造產(chǎn)業(yè)。這意味著(zhù),中國IC設計公司首次實(shí)現最先進(jìn)工藝進(jìn)行量產(chǎn),躋身為一線(xiàn)廠(chǎng)商。
隨后,華為手機再度加速先進(jìn)工藝制造進(jìn)程。在德國柏林IFA2017大展上,華為發(fā)布的麒麟970選擇了臺積電全新的10nm工藝。在工藝節點(diǎn)上,麒麟970已經(jīng)和國際一流廠(chǎng)商處于同一起跑線(xiàn)上,高通的驍龍830和聯(lián)發(fā)科X30處理器采用的也是10nm的制作工藝。
因為新制程的關(guān)系,麒麟970相比上一代960將會(huì )有20%的功耗降低,同時(shí)在封裝尺寸上還將縮小40%。麒麟970再次刷新了麒麟系列芯片中晶體管數量的記錄——55億個(gè)晶體管,遠超上一代麒麟960的40億個(gè)。相比之下,驍龍835只有30億,蘋(píng)果iphone7系列使用的A10處理器也不過(guò)33億個(gè)。
CPU、GPU性能發(fā)展降速,重點(diǎn)是降功耗
但實(shí)際上,這次麒麟970的CPU和GPU部分是“不思進(jìn)取”的。麒麟970 的CPU采用4Cortex-A73+4Cortex-A53的公版大小核設計,其中A73大核主頻為2.4GHz(麒麟 960 是 2.36GHz),A53小核主頻為1.8GHz(麒麟 960 是 1.84GHz)??梢钥吹?,麒麟970和960的CPU核心配置基本一致,沒(méi)有明顯提升。在功耗方面將有20%的降低,但是主要得益于采用了10nm的工藝。
在GPU方面,970采用了全新的Mali G72MP12,這也是手機首次用上12核GPU。但是就其組成Mali G72圖形處理器單元來(lái)說(shuō),相對于上一代麒麟960的G71圖形處理器單元來(lái)說(shuō),并沒(méi)有大幅度的性能提升。在拍照方面,麒麟970采用了兩個(gè)ISP,在拍照這一應用場(chǎng)景中取得了很大進(jìn)展:更快的反應速度、更快的對焦速度、運動(dòng)拍攝幀率更大、暗光場(chǎng)景下的拍攝能力更強。
實(shí)際性能上,余承東表示,相比起麒麟 960,麒麟 970 的性能有 20% 的提升,并且能效比提升了 50%。照理說(shuō),由于麒麟 970 的 GPU 核心架構比麒麟 960 更先進(jìn),核心數還多了 50%,并且工藝更先進(jìn),GPU 性能提升的幅度應該遠不止 20%。之所以出現這種情況,很可能是華為將麒麟 970 的 GPU 主頻壓得比較低,從而更好地降低功耗(于是就有了提升幅度高達 50% 的能效比)。不出意外,麒麟 960 上出現的 GPU‘滿(mǎn)血跑’時(shí)功耗感人的情況,麒麟 970 上不會(huì )再出現。
首次集成NPU,打造最強手機AI芯片
麒麟970冷漠了CPU和GPU,其實(shí)是另有新歡。麒麟 970 的開(kāi)發(fā)團隊在繼承過(guò)去數代成果的基礎上,首次集成 NPU(Neural Network Processing Unit)專(zhuān)用硬件處理單元,創(chuàng )新設計了 HiAI 移動(dòng)計算架構,其 AI 性能密度大幅優(yōu)于 CPU 和 GPU。
用了HiAI移動(dòng)計算架構之后,麒麟970的AI性能密度大幅優(yōu)于CPU和GPU。同樣是四個(gè)Cortex-A73核心,在處理同樣的AI應用任務(wù)時(shí),新的異構計算架構擁有大約50倍能效和25倍性能優(yōu)勢,這意味著(zhù)麒麟970芯片可以用更少的能耗更快地完成AI計算任務(wù)。例如在圖像識別速度上,內部測試顯示,這種性能允許麒麟970每分鐘處理2005張圖像,而在沒(méi)有NPU的情況下每分鐘只能處理97張圖像。
據此前報道,這顆NPU并非華為獨立打造,技術(shù)方面主要由國內AI芯片創(chuàng )業(yè)公司寒武紀負責。后者去年已經(jīng)發(fā)布了第一款深度學(xué)習專(zhuān)用處理器“寒武紀1A”,同時(shí)還為其配套了專(zhuān)用的指令集系統。就在兩個(gè)星期之前,寒武紀還完成了A輪融資,總金額達到1億美元,融資方包括國投創(chuàng )業(yè)、阿里巴巴、聯(lián)想等一批知名巨頭和VC。
所以NPU是專(zhuān)門(mén)為了人工智能而生,根據官方現場(chǎng)PPT,這顆NPU的性能將達到1.92T FP16(半精度浮點(diǎn)運算)。相比之下,經(jīng)常拿來(lái)作為神經(jīng)網(wǎng)絡(luò )研究的NVIDIA GTX1080,FP32的處理能力為8.87T。由此換算,GTX1080的FP16能力大約為17.74T。換句話(huà)說(shuō),NPU的性能約等于1/9個(gè)GTX1080。
其實(shí),麒麟 970 整合NPU構想早在五年前就已經(jīng)開(kāi)始醞釀。在過(guò)去的幾年里,產(chǎn)業(yè)界已經(jīng)逐漸看到 CPU 的應用瓶頸,而 GPU 雖然也開(kāi)始參與計算工作,但其主要的顯示工作隨著(zhù)分辨率的提高而負擔不斷加重,所以要讓這個(gè)已經(jīng)分身乏術(shù)的架構繼續增加負荷,對整體性能以及功耗表現也是會(huì )產(chǎn)生負面影響。
事實(shí)上,當初的主流移動(dòng)芯片架構也已經(jīng)不會(huì )只內建此兩種架構,而多半會(huì )增加額外的 DSP 單元或者是 ISP 架構,不僅分擔主系統的沉重計算負擔,也因為讓不同類(lèi)型的計算工作可以擺到更適合的計算架構上,整體功耗也有了明顯的改善。
可以說(shuō),AI 正是基于同樣的概念:讓適合的架構來(lái)做適合的工作,效率才會(huì )得到提高。
準5G基帶,再次領(lǐng)先高通和三星
華為目前是全球最大通信設備商,華為海思最為自豪的是其基帶研發(fā)技術(shù),早在2014年其研發(fā)的麒麟920先于高通支持LTE Cat6技術(shù),隨后在2015年先于高通發(fā)布支持LTE Cat12的基帶,不過(guò)此后其就開(kāi)始落后于高通和三星,要知道高通、三星紛紛發(fā)布支持1Gbps下行(LTE Cat16)、1.2Gbps下行(LTE Cat18)的手機芯片。
本次華為麒麟970取得對高通和三星的技術(shù)領(lǐng)先優(yōu)勢是一個(gè)讓人驚喜的進(jìn)步,實(shí)現了跨越式的發(fā)展。970支持LTE Cat18,最高下載速度達到1.2Gbps(4x4 MIMO,3CC CA,256QAM),要知道驍龍835號稱(chēng)千兆LTE的最高下載速度為1Gbps。難怪其消費者BG CEO余承東表示麒麟970是全球首款支持Pre5G的手機芯片。
此外,麒麟 970 終于支持了在同時(shí)使用兩張 SIM 卡時(shí),主副卡同時(shí)用 4G(上一代麒麟 960 的副卡只能支持 3G)。此外,麒麟 970 還特別針對高鐵時(shí)的使用做了優(yōu)化,信號更穩定,減少掉線(xiàn)。