德勤報(bào)告 | 2018 AI趨勢(shì):AI芯片更豐富,用機(jī)器學(xué)習(xí)的企業(yè)翻倍
2018 AI趨勢(shì):AI芯片更豐富,用機(jī)器學(xué)習(xí)的企業(yè)翻倍
這是一個(gè)急速變化但又有很強(qiáng)發(fā)展銜接性的時(shí)代。
德勤在報(bào)告Technology, Media and ecommunications Predictions(科技、傳媒和通訊的預(yù)測(cè))開頭這樣說。
這份報(bào)告中,德勤預(yù)測(cè)了增強(qiáng)現(xiàn)實(shí)(AR)、智能手機(jī)、AI芯片、機(jī)器學(xué)習(xí)、互聯(lián)網(wǎng)、數(shù)字傳媒等領(lǐng)域在2018年的大趨勢(shì)??傮w來講,科技、傳媒和通訊領(lǐng)域內(nèi)將呈現(xiàn)指數(shù)級(jí)進(jìn)步,生活中的方方面面也將發(fā)生不易察覺的變化。
這份報(bào)告長達(dá)80頁,我們將其中與人工智能相關(guān)的兩部分編譯整理如下。在2017年的尾巴,我們提前去2018年預(yù)覽一下。
強(qiáng)大的運(yùn)算力對(duì)訓(xùn)練和推理神經(jīng)網(wǎng)絡(luò)來說*。
2009年,*塊GPU問世,這種專門為密集型計(jì)算、高度并行計(jì)算設(shè)計(jì)的芯片,比CPU更能滿足機(jī)器學(xué)習(xí)任務(wù)的要求。自此,越來越多的類型開始豐富“AI芯片”這個(gè)新名詞。
德勤預(yù)測(cè),2018年,GPU和CPU仍是機(jī)器學(xué)習(xí)領(lǐng)域的主流芯片。
GPU的市場(chǎng)需求量大概在50萬塊左右,在機(jī)器學(xué)習(xí)任務(wù)中對(duì)FPGA的需求超過20萬塊,而ASIC芯片的需求量在10萬塊左右。
△ GPU、FPGA和ASIC芯片需求與2016年對(duì)比圖
在年底,超過25%的數(shù)據(jù)中心中用來加速機(jī)器學(xué)習(xí)的芯片將為FPGA和ASIC芯片。
△ FPGA和ASIC芯片的*超過25%
那么,每種類型的芯片到底向什么方向發(fā)展,德勤給出了詳細(xì)的預(yù)測(cè):
機(jī)器學(xué)習(xí)優(yōu)化的GPU:在2018年,GPU制造者將推出專門優(yōu)化機(jī)器學(xué)習(xí)任務(wù)的特別版GPU。其實(shí)現(xiàn)在已經(jīng)能看到這樣的案例,英偉達(dá)稱自己的Volta架構(gòu)將使深度學(xué)習(xí)訓(xùn)練加速12倍,在深度學(xué)習(xí)推理任務(wù)上比Pascal架構(gòu)還要快6倍。
機(jī)器學(xué)習(xí)優(yōu)化的CPU:在GPU市場(chǎng)蒸蒸日上的同時(shí),我們也可以看到CPU公司推出機(jī)器學(xué)習(xí)的CPU芯片。比如英特爾Knights Mill芯片,比非機(jī)器學(xué)習(xí)優(yōu)化芯片的性能提升了4倍。
機(jī)器學(xué)習(xí)優(yōu)化的FPGA:在2016年,F(xiàn)PGA芯片的銷售額已經(jīng)超過40億美元。在2017年年初報(bào)告《Can FPGAs Beat GPUs in Accelerating Next-Generation Deep Neural Networks?》中,研究人員表示在某些情況下,F(xiàn)PGA的速度和運(yùn)算力可能比GPU還要強(qiáng)。
目前,微軟、亞馬遜AWS和百度也稱將FPGA用于機(jī)器學(xué)習(xí)的相關(guān)任務(wù)中??傮w來說,2018年機(jī)器學(xué)習(xí)任務(wù)對(duì)FPGA的需求超過了20萬。
機(jī)器學(xué)習(xí)優(yōu)化的ASIC芯片:ASIC是只執(zhí)行單一任務(wù)的芯片,目前ASIC芯片的制造廠商很多。在2017年,整個(gè)產(chǎn)業(yè)的總收益大約在150億美元左右。
綜合各芯片廠商放出的消息,英特爾的收購的Nervana,能在2018年生產(chǎn)出自己的芯片。此外,日本富士通也計(jì)劃在2018年推出一款名為深度學(xué)習(xí)單元(DLU)的芯片。
TPU:TPU是谷歌為適應(yīng)機(jī)器學(xué)習(xí)任務(wù)推出的ASIC芯片,適用于處理在開源的TensorFlow中的任務(wù)。在谷歌數(shù)據(jù)中心的推理任務(wù)中,TPU已經(jīng)顯示出良好的性能,和CPU相比,性能可以提升10到50倍。據(jù)谷歌預(yù)測(cè)的數(shù)據(jù)顯示,2018年對(duì)TPU的需求大約在10萬塊左右。
低能耗機(jī)器學(xué)習(xí)加速芯片:德勤預(yù)測(cè),在2018年,手機(jī)、平板和其他移動(dòng)設(shè)備對(duì)機(jī)器學(xué)習(xí)芯片的需求量在5億左右。移動(dòng)端芯片的zui大特點(diǎn)就是低能耗,GPU芯片的功率大致在250瓦左右,相比之下TPU芯片需要的功率僅為75瓦。對(duì)傳感器網(wǎng)絡(luò)來說,所需功率需要低于10毫瓦。
德勤預(yù)測(cè),可能再過兩三年,低功率的機(jī)器學(xué)習(xí)芯片才能有突破性進(jìn)展。
光流芯片:除了上面幾種,還有一種特殊的芯片類型,IBM的True North芯片就是一種光流芯片,它能加速機(jī)器學(xué)習(xí)任務(wù),并且非常。不過德勤表示,現(xiàn)在還很難預(yù)測(cè)這種光流芯片在2018年的體量,但整體來說可能低于10萬塊,甚至低于1萬塊。
△ 翻倍再翻倍
在報(bào)告中,德勤重點(diǎn)提出了讓機(jī)器學(xué)習(xí)更廣泛應(yīng)用企業(yè)中的5個(gè)重要推動(dòng)力,分別為數(shù)據(jù)科學(xué)的自動(dòng)化、訓(xùn)練數(shù)據(jù)需求的減少、訓(xùn)練速度的加快、解釋結(jié)果和本地部署等。
1. 數(shù)據(jù)科學(xué)自動(dòng)化:像數(shù)據(jù)開發(fā)和特征工程這種耗時(shí)的機(jī)器學(xué)習(xí)任務(wù),可能會(huì)占用數(shù)據(jù)科學(xué)家80%的時(shí)間。好消息是,這種繁瑣的工作正在逐步被自動(dòng)化取代。從耗時(shí)的工作解放出來后,數(shù)據(jù)科學(xué)家執(zhí)行機(jī)器學(xué)習(xí)試驗(yàn)的時(shí)間從幾個(gè)月縮短到了幾天。自動(dòng)化在一定程度上緩解了數(shù)據(jù)科學(xué)家的短缺,為企業(yè)賦予和更多活力。
2. 減少訓(xùn)練數(shù)據(jù)的需求:訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)模型可能需要數(shù)以百萬計(jì)的數(shù)據(jù)元素,為訓(xùn)練數(shù)據(jù)獲取標(biāo)記數(shù)據(jù)也是一件耗時(shí)且成本高的事情。目前,已經(jīng)涌現(xiàn)出致力于減少機(jī)器學(xué)習(xí)需要的訓(xùn)練數(shù)據(jù)的技術(shù),包括數(shù)據(jù)合成、算法生成的模擬真實(shí)數(shù)據(jù)特征等。
3. 加速訓(xùn)練:正如上面所說,像GPU、FPGA等機(jī)器學(xué)習(xí)專有硬件的出現(xiàn)可以縮短機(jī)器學(xué)習(xí)模型的訓(xùn)練時(shí)間,加速研究進(jìn)展。
4. 解釋結(jié)果:雖然機(jī)器學(xué)習(xí)的進(jìn)展日新月異,但機(jī)器學(xué)習(xí)模型通常存在關(guān)鍵缺陷,比如黑箱,意味著我們無法解釋其中的原理。這些不清楚讓模型無法適應(yīng)更多的應(yīng)用。如果黑箱消失、結(jié)果都可解釋,是機(jī)器學(xué)習(xí)應(yīng)用的一大進(jìn)步。
5. 本地部署:機(jī)器學(xué)習(xí)將隨著部署能力一同成長。德勤去年曾經(jīng)預(yù)測(cè),機(jī)器學(xué)習(xí)正在走進(jìn)移動(dòng)設(shè)備和智能傳感器,帶來智能家庭、智慧城市、無人駕駛、可穿戴技術(shù)和物聯(lián)網(wǎng)技術(shù)。
像谷歌、微軟、Facebook等科技*正在嘗試將機(jī)器學(xué)習(xí)模型壓縮到便攜設(shè)備上,比如谷歌的TensorFlow Lite、Facebook的Caffe2Go和蘋果的Core ML。