導(dǎo)讀:9月25日,云棲大會現(xiàn)場,阿里巴巴集團(tuán)CTO、達(dá)摩院院長張建鋒向全場展示了含光800——阿里第一款A(yù)I芯片。
阿里第一顆芯片誕生!
9月25日,云棲大會現(xiàn)場,阿里巴巴集團(tuán)CTO、達(dá)摩院院長張建鋒向全場展示了含光800——阿里第一款A(yù)I芯片。
為了這款芯片,阿里一年前放下狠話,但誰也沒想到一年后即亮相:不僅完成流片,還已在阿里云上正式上線。
這也是阿里平頭哥成立以來首款硬件產(chǎn)品,是阿里20年發(fā)展史上首款自主研發(fā)、流片量產(chǎn)的芯片。
在芯片行業(yè)時(shí)代變革轉(zhuǎn)關(guān)之際,阿里好風(fēng)憑借力、快速取得突破,掌握下一階段擂臺主動(dòng)權(quán),意義和價(jià)值,或許將遠(yuǎn)超芯片本身。
不過發(fā)布現(xiàn)場,張建鋒更想強(qiáng)調(diào)的是敬畏之心。
他說:“在全球芯片領(lǐng)域,阿里巴巴是一個(gè)新人,玄鐵和含光800是平頭哥的萬里長征第一步,我們還有很長的路要走。”
含光800究竟如何?
含光之名,依然沿襲平頭哥傳統(tǒng),取自神兵寶劍。
“含光”本是上古三大神劍之一,含而不露,光而不耀,正如含光芯片作用方式——無形卻強(qiáng)勁的算力。
具體來說,這是一款云端AI芯片,主打推理,重點(diǎn)應(yīng)用于視覺場景。
性能方面,打破現(xiàn)有AI芯片記錄,性能及能效比全球第一。
芯片制程12nm,晶體管數(shù)量高達(dá)170億個(gè)。
在業(yè)界標(biāo)準(zhǔn)的ResNet-50測試中,含光800推理性能達(dá)到78563 IPS,比目前業(yè)界最好的AI芯片性能高4倍。
能效比500 IPS/W,是第二名的3.3倍。
以數(shù)據(jù)橫向?qū)Ρ?,含?00展現(xiàn)性能,是英偉達(dá)最新T4 15倍,是應(yīng)用最廣的英偉達(dá)P4的46倍——超過去年設(shè)計(jì)之初吹下的“?!薄?/p>
目前,含光800已經(jīng)率先在阿里內(nèi)部多個(gè)業(yè)務(wù)場景開啟大規(guī)模應(yīng)用。
從視頻圖像識別、分類、搜索,到城市大腦等,未來還可應(yīng)用于醫(yī)療影像、自動(dòng)駕駛等領(lǐng)域。
大會現(xiàn)場,張建鋒展示了這款芯片的強(qiáng)大性能。
每天新增10億商品圖片的拍立淘商品庫,使用含光800識別效率可提升12倍,時(shí)間從傳統(tǒng)通用GPU的1小時(shí)縮減至5分鐘。
還有城市大腦。在城市大腦中實(shí)時(shí)處理杭州主城區(qū)交通視頻,需要40顆傳統(tǒng)GPU,延時(shí)為300ms,使用含光800僅需4顆,延時(shí)降至150ms。
阿里方面稱,含光800會首先在阿里內(nèi)部場景業(yè)務(wù)服役,同時(shí)含光800的AI云服務(wù)也正式上線,通過阿里云對外提供AI算力,但不會直接以芯片的形式對外售賣。
此前,阿里平頭哥連戰(zhàn)連捷,過去兩個(gè)月已經(jīng)發(fā)布了無劍SoC平臺和玄鐵處理器IP,“讓天下沒有難造的芯片”,幫助企業(yè)降低芯片設(shè)計(jì)門檻。
現(xiàn)在,作為首款硬件,也是最硬核產(chǎn)品,含光800依然承載平頭哥之志,希望通過阿里云AI云服務(wù),讓企業(yè)隨時(shí)隨地可以享受高性能計(jì)算。
而且也意味著阿里平頭哥成立一年來,走過了軟件架構(gòu)(處理器IP、SoC平臺)到硬件流片的完整流程。
這是阿里造芯,標(biāo)志性的“交作業(yè)”時(shí)刻。
阿里造芯這一年
阿里布局AI芯片,最早曝光于2018年4月。
其后9月云棲大會,阿里宣布成立平頭哥,并且先將“狠話”放下,正在打造一款NPU,架構(gòu)設(shè)計(jì)上,性能成果就要比業(yè)內(nèi)最好的AI處理器強(qiáng)大40倍。
此言一出,語驚四座。
然而一年之后的現(xiàn)在——成績單時(shí)刻——阿里平頭哥確實(shí)沒有食言。含光800,性能46倍于P4,甚至比最新一代英偉達(dá)T4,也有15倍領(lǐng)先。
雖然過程并非完全順風(fēng)順?biāo)^去一年,“含光”團(tuán)隊(duì)不僅完成了從無到有的跨越,更是超越了所有人的預(yù)期。
整個(gè)過程中,含光800團(tuán)隊(duì)在軟硬件設(shè)計(jì)上都做了大量工作,例如做架構(gòu)創(chuàng)新,軟件編譯器、框架、工具鏈等,后期還針對INT8數(shù)據(jù)類型進(jìn)行了大量優(yōu)化。
含光800芯片負(fù)責(zé)人驕旸透露,這款芯片采用自研架構(gòu),針對深度學(xué)習(xí)中使用的大量權(quán)重參數(shù)和張量數(shù)據(jù),在支持稀疏壓縮與量化處理的基礎(chǔ)上,通過獨(dú)特設(shè)計(jì)的數(shù)據(jù)訪存與流水線處理技術(shù),大大減低了I/O需求和數(shù)據(jù)的搬移。
芯片同時(shí)深度優(yōu)化了卷積、矩陣乘、向量計(jì)算和各種激活函數(shù),通過高有效的硬件資源調(diào)度和全并行的數(shù)據(jù)流處理,把AI運(yùn)算的性能和能效雙雙推向極致。
另外,還集成了達(dá)摩院算法。針對CNN及視覺類算法深度優(yōu)化計(jì)算、存儲密度,可實(shí)現(xiàn)大網(wǎng)絡(luò)模型在一顆NPU上完成計(jì)算。
更難能可貴的是,平頭哥團(tuán)隊(duì)攻克了一系列挑戰(zhàn)。
例如如何兼顧性能、良率、功耗等。平頭哥在軟硬件上充分考慮了這些問題,用最短的時(shí)間完成了芯片的設(shè)計(jì)、流片整個(gè)過程,7個(gè)月完成前端設(shè)計(jì),之后僅了3個(gè)月就成功流片。
驕旸感慨,從傳統(tǒng)造芯角度來看,幾乎是一個(gè)不可能完成的任務(wù)。但最終,阿里AI芯片團(tuán)隊(duì),還是創(chuàng)下紀(jì)錄,完成挑戰(zhàn),把不可能變?yōu)榭赡堋?/p>
這其中,自然有“007”們?nèi)杖找挂沟目喙Γ贿^也不容忽視乘風(fēng)起勢的大趨勢作用。
正所謂時(shí)來天地同協(xié)力,AI時(shí)代的專芯專用需求,阿里業(yè)務(wù)場景加持優(yōu)勢,都是不得不說的核心原因。
NPU:芯片的iPhone時(shí)刻
首先,AI時(shí)代的專芯專用需求。
顧名思義,NPU——神經(jīng)網(wǎng)絡(luò)處理器就是專門處理深度神經(jīng)網(wǎng)絡(luò)算法的芯片,而深度神經(jīng)網(wǎng)絡(luò)算法,核心是模仿生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn),并且最基本特征就是模仿大腦神經(jīng)元之間傳遞模式,并對輸入的信息進(jìn)行快速處理。
然而傳統(tǒng)通用處理器基于馮諾依曼結(jié)構(gòu),其存儲和運(yùn)算處理相互分離,如果處理深度神經(jīng)網(wǎng)絡(luò),需要大量讀寫運(yùn)行操作,會受到帶寬限制,效率較低。
因此以含光800為代表的神經(jīng)網(wǎng)絡(luò)芯片,根據(jù)神經(jīng)網(wǎng)絡(luò)推理運(yùn)算特征,會設(shè)計(jì)特定的硬件神經(jīng)元、高速連接的存儲結(jié)構(gòu)以及專用指令集,對內(nèi)存和計(jì)算單元實(shí)現(xiàn)高效組織管理,實(shí)現(xiàn)單條指令完成多個(gè)操作,提高計(jì)算效率和內(nèi)存訪問效率。
簡而言之,專芯專用,效率更高、成本更低,相應(yīng)效益也會更好。
而且另一方面,因?yàn)樾枨竺鞔_,應(yīng)用場景有針對性,相比打造CPU和GPU,打造AI芯片的門檻要低很多。
于是整個(gè)行業(yè)都在來到一個(gè)“iPhone時(shí)刻”——軟件重新定義硬件,場景需求重新定義芯片。
然后過程中最好還能與應(yīng)用的業(yè)務(wù)場景結(jié)合,不斷驗(yàn)證、反饋,迭代,最后在達(dá)到目標(biāo)效果后流片、完成物理實(shí)現(xiàn)。
所以當(dāng)今之勢,不僅AI造芯初創(chuàng)公司形成小高潮,而且互聯(lián)網(wǎng)巨頭也紛紛跨界變硬,啟動(dòng)自主AI芯片打造。
但想不想造、有沒有能力造,最后造的結(jié)果如何……完全是好幾個(gè)層次,完全是綜合實(shí)力的比拼。
這也就是為什么,阿里的業(yè)務(wù)場景優(yōu)勢,會給平頭哥首款A(yù)I芯片帶來加速,也是阿里手握新時(shí)代芯片競爭“天命”的原因。
何以一年造出AI芯?
實(shí)際上,雖然速度快、成果驚人,但阿里AI芯片并非完全“從0開始”。
平頭哥創(chuàng)立一年,不過達(dá)摩院和阿里各大業(yè)務(wù),已在AI算法和軟件方面積累很長時(shí)間。
含光800團(tuán)隊(duì)透露,基于阿里達(dá)摩院的算法以及阿里巴巴集團(tuán)硬件基礎(chǔ)設(shè)施多年技術(shù)沉淀,是含光800重構(gòu)芯片軟硬件技術(shù)棧的秘訣所在。
由于AI芯片的差異化設(shè)計(jì)主要體現(xiàn)在硬件架構(gòu)和軟件算法上,二者需要高度適配才能發(fā)揮芯片的最大價(jià)值。
算法方面,阿里巴巴達(dá)摩院機(jī)器智能實(shí)驗(yàn)室過去兩年構(gòu)建了完整的算法體系,涵蓋語音智能、語言技術(shù)、機(jī)器視覺、決策智能等方向,并且取得多個(gè)世界領(lǐng)先水平的成果。
硬件方面,阿里巴巴此前已在服務(wù)器、FPGA以及存儲等領(lǐng)域擁有多年經(jīng)驗(yàn),平頭哥團(tuán)隊(duì)也在體系結(jié)構(gòu)、編譯技術(shù)等領(lǐng)域擁有深厚的技術(shù)儲備。
基于這些能力,平頭哥完成了算法和硬件之間鴻溝的快速突破。在算法能力之上,自研芯片架構(gòu),并且設(shè)計(jì)了完整軟件棧。
而且如此設(shè)計(jì)理念,效果也立竿見影。例如功耗是AI芯片行業(yè)通病,但平頭哥自研架構(gòu)可大幅減少對內(nèi)存的訪問,在保證極致性能的情況下,能把芯片功耗降到最低水平。
另外,新入局也有新入局的優(yōu)勢。
帶隊(duì)打造含光800的驕旸感慨,半導(dǎo)體巨頭搞AI芯片,會有既有開發(fā)者生態(tài)的包袱,但阿里平頭哥團(tuán)隊(duì)目標(biāo)專一,就是要實(shí)現(xiàn)最強(qiáng)算力,把硬件能力完全釋放,以構(gòu)建更大的生態(tài)。
過程中也無時(shí)不刻展現(xiàn)著阿里業(yè)務(wù)場景優(yōu)勢、以及組織凝聚力。
而平頭哥在架構(gòu)設(shè)計(jì)之初,業(yè)務(wù)場景同事就從需求和經(jīng)驗(yàn)層面給出了全面反饋,直接幫助厘清了需求。
然后算法加持和驗(yàn)證迭代階段,達(dá)摩院和業(yè)務(wù)場景也不厭其煩幫助測試、反饋,提交迭代,共同完成了流片前的最后保障。
所以雖然阿里造芯,專門成立了平頭哥半導(dǎo)體,但“含光800”從無到有,不光是一個(gè)人、一支團(tuán)隊(duì)在戰(zhàn)斗。
如果你問阿里AI造芯的優(yōu)勢究竟有哪些?
除了有“生死看淡不服就干”的決心,真金白銀的投入,業(yè)內(nèi)全球資深人才的招攬……
平頭哥首席科學(xué)家、阿里巴巴高級研究員元尊,會將具體優(yōu)勢歸結(jié)為“ABCDE”。
A:Algorithm,算法,阿里本身的技術(shù)儲備和AI實(shí)力,在算法方面有世界領(lǐng)先的積累。
B:Big Data,大數(shù)據(jù),龐大的生態(tài)場景和覆蓋方方面面的業(yè)務(wù),在數(shù)據(jù)質(zhì)和量方面都有優(yōu)勢。
C:Computing,安全穩(wěn)定的計(jì)算力,阿里云的市場龍頭和領(lǐng)先地位,就已能說明一切。
D:Domain knowledge,專業(yè)領(lǐng)域知識,阿里本身并非只是一家一業(yè)的公司,而是幾十家公司的集合體、經(jīng)濟(jì)體,有各種各樣的全面應(yīng)用場景,對于各項(xiàng)最新技術(shù)和產(chǎn)品,有最天然的應(yīng)用基礎(chǔ)。
E:Ecosystem,生態(tài)。比起傳統(tǒng)芯片半導(dǎo)體公司,阿里生態(tài)涵蓋之廣泛、能力之多元和應(yīng)用前景,都是綜合實(shí)力的體現(xiàn)。
元尊認(rèn)為,擁有“ABCDE”的阿里,比光有C的其他芯片公司,自然更容易更快速站上AI芯片C位。
而且這種“ABCDE”,一方面幫助造芯,另一方面還幫助用芯。
阿里AI芯片商業(yè)模式
在阿里內(nèi)部,因?yàn)樨S富的場景需求和業(yè)務(wù)體量,對高性能AI算力的需求已非一日。
電商場景中,拍立淘等新興購物方式涉及的圖片搜索,需要AI芯片。
還有文娛場景,優(yōu)酷視頻修復(fù)、分析,也需要AI實(shí)現(xiàn)。
還有阿里正在大規(guī)模落地推進(jìn)的城市大腦等,如各類車輛進(jìn)行檢測、跟蹤、特征提取、屬性檢測等,也都離不開更強(qiáng)算力加持。
未來,在醫(yī)療和自動(dòng)駕駛等重要垂直領(lǐng)域,更是空間廣闊、商業(yè)前景潛力十足。
單自主芯片自用,就已效益顯著。
更何況阿里云的地位和實(shí)力,也能讓AI算力通過阿里云賦能更多領(lǐng)域、更多企業(yè)。
所以此次含光800芯片選擇云服務(wù)的商業(yè)模式,也在情理之中。
阿里方面,則更樂于強(qiáng)調(diào)首款A(yù)I芯片的商業(yè)模式背后,一以貫之的普惠性——平頭哥創(chuàng)辦的核心理念。
今年早先推出的無劍SoC平臺和玄鐵處理器IP,都選擇了直接開放授權(quán),幫助企業(yè)降低芯片設(shè)計(jì)門檻。
而含光800的普惠性,則體現(xiàn)在通過阿里云AI云服務(wù)的形式,讓企業(yè)隨時(shí)隨地可以享受高性能計(jì)算服務(wù)。
平頭哥下一步
在杭州云棲大會期間,也談到了阿里芯片的下一步。
隨著含光800發(fā)布,平頭哥已集齊了全棧芯片家族:
基礎(chǔ)單元處理器IP,C-Sky系列、玄鐵系列,為AIoT終端芯片提供高性價(jià)比IP;
一站式芯片設(shè)計(jì)平臺,無劍SoC平臺集成CPU、GPU、NPU等,降低芯片設(shè)計(jì)門檻;
AI芯片,含光800通過AI云服務(wù)為AI場景提供高性能算力。
這三大產(chǎn)品系列,初步完成了平頭哥端云一體的芯片生態(tài)。
而接下來,平頭哥產(chǎn)品形態(tài),重點(diǎn)將是云端AI訓(xùn)練芯片、端上推理芯片,以及用于阿里云神龍服務(wù)器的SoC專用芯片,以滿足更多場景的算力需求。
此外,平頭哥芯片初步軟硬件閉環(huán)實(shí)現(xiàn),阿里巴巴在芯片、云和AI三大業(yè)務(wù)之間的協(xié)同關(guān)系,也雛形初現(xiàn)。
從時(shí)代趨勢而言,三者原本就是三位一體。
AI算法逐漸集成到芯片,集成算法的專用芯片能為云服務(wù)提供了更強(qiáng)的性能,而云計(jì)算本身則加速了AI應(yīng)用的大規(guī)模落地。
過去十年,阿里集中推進(jìn)、展現(xiàn)成果的是AI和云計(jì)算。
現(xiàn)在,平頭哥補(bǔ)齊芯片一環(huán),阿里在計(jì)算版圖中的鐵三角形成。
不過中國科技互聯(lián)網(wǎng)巨頭,自然還有野心更大的宏偉藍(lán)圖——行業(yè)生態(tài)和開發(fā)者生態(tài)。
此前,玄鐵910發(fā)布,阿里也明確解釋過,平頭哥目標(biāo)就是打造AIoT時(shí)代的基礎(chǔ)設(shè)施平臺,延續(xù)從阿里巴巴B2B淘寶支付寶,到阿里云和菜鳥等延續(xù)承襲的阿里之道。
在此次云棲大會,基于RISC-V架構(gòu)的玄鐵處理器、以及無劍SoC平臺也有開發(fā)者案例——如人工智能獨(dú)角獸云天勵(lì)飛、老牌芯片商炬芯科技,以及可重構(gòu)計(jì)算芯片領(lǐng)軍企業(yè)清微智能,都將現(xiàn)場亮相。
當(dāng)然,既然AI芯片是一次軟硬件一體化的完全重構(gòu),那么在軟件棧和模型框架方面,阿里必然也不會袖手旁觀。
最明顯的信號,莫過于重磅引入的Caffe之父賈揚(yáng)清。
One more thing:含光
最后,阿里首款A(yù)I芯片,取名依然寓寄深遠(yuǎn)。
“含光”之名,來自《列子·湯問》,是上古名劍,也是商天子三劍之首。
“視不可見,運(yùn)之不知其所觸,泯然無際,經(jīng)物而物不覺。”
這把劍隱隱發(fā)光,如光如影如風(fēng),快到看不見,無形、無處不在,無往不利。
平頭哥團(tuán)隊(duì)解釋說,這是含光800團(tuán)隊(duì)內(nèi)部投票的結(jié)果。
既希望傳達(dá)該款NPU的能力,也展現(xiàn)平頭哥首款硬件初入芯片領(lǐng)域的心態(tài)——在英特爾和英偉達(dá)等巨頭面前,還是“年輕人”,造芯重器,心懷敬畏。
不過,含光800面世,依然是阿里和平頭哥歷史性的重要一步。
阿里剛剛度過了20周歲生日,這一個(gè)20年完成了“讓天下沒有難做的生意”。
接下來20年,能實(shí)現(xiàn)“讓天下沒有難造的芯片”的大膽夢想嗎?
不知道。
眼下只知道含光初立,一劍光寒十四州,邁出萬里長征第一步。