產(chǎn)品中心 應(yīng)用方案 技術(shù)文摘質(zhì)量保證產(chǎn)品選型 下載中心業(yè)內(nèi)動(dòng)態(tài) 選型幫助 品牌介紹 產(chǎn)品一覽 聯(lián)系我們
- Cadence:Tensilica Vision C5 DSP不同于神經(jīng)網(wǎng)絡(luò)加速器
- 來(lái)源:賽斯維傳感器網(wǎng) 發(fā)表于 2017/11/6
在硅谷2017夏季拜訪Cadence總部時(shí),剛剛發(fā)布不久的Cadence Tensilica Vision C5 DSP再一次被該公司的產(chǎn)品市場(chǎng)負(fù)責(zé)人提起,他們向電子工程專(zhuān)輯強(qiáng)調(diào),Vision C5 DSP不是一個(gè)普通的神經(jīng)網(wǎng)絡(luò)加速器,而是專(zhuān)門(mén)針對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行了特定優(yōu)化的DSP,可以實(shí)現(xiàn)全神經(jīng)網(wǎng)絡(luò)層的計(jì)算加速(卷積層、全連接層、池化層和歸一化層),而不僅僅是卷積層的加速。
之前電子工程專(zhuān)輯記者邵樂(lè)峰曾經(jīng)撰寫(xiě)過(guò)C5 DSP的報(bào)道,“神經(jīng)網(wǎng)絡(luò)DSP市場(chǎng)湊齊一桌麻將,Cadence Tensilica一落座就準(zhǔn)備聽(tīng)牌”,但是這家公司的外國(guó)市場(chǎng)部的同事在看完文章后更糊涂了。“我們沒(méi)有在打麻將,我們?cè)谡J(rèn)真做神經(jīng)網(wǎng)絡(luò)!盤(pán)ulin Desai,Cadence旗下Tensilica IVP事業(yè)部產(chǎn)品市場(chǎng)總監(jiān)笑著回應(yīng)了我們之前的報(bào)道。
Cadence Tensilica Vision C5 DSP,面向?qū)ι窠?jīng)網(wǎng)絡(luò)計(jì)算能力有極高要求的視覺(jué)設(shè)備、雷達(dá)/光學(xué)雷達(dá)和融合傳感器等應(yīng)用量身優(yōu)化。針對(duì)車(chē)載、監(jiān)控安防、無(wú)人機(jī)和移動(dòng)/可穿戴設(shè)備應(yīng)用,Vision C5 DSP 1TMAC/s的計(jì)算能力完全能夠勝任所有神經(jīng)網(wǎng)絡(luò)的計(jì)算任務(wù)。
Pulin Desai再次向電子工程專(zhuān)輯記者解釋了Vision C5 DSP與神經(jīng)網(wǎng)絡(luò)加速器的區(qū)別。
神經(jīng)網(wǎng)絡(luò)DSP vs. 神經(jīng)網(wǎng)絡(luò)加速器
圖:C5 DSP與神經(jīng)網(wǎng)絡(luò)加速器的區(qū)別
基于攝像頭的視覺(jué)系統(tǒng)在汽車(chē)、無(wú)人機(jī)和安防領(lǐng)域最為常見(jiàn),這種架構(gòu)需要兩種最基礎(chǔ)的視覺(jué)優(yōu)化計(jì)算模式。首先,利用傳統(tǒng)視覺(jué)算法對(duì)攝像頭捕捉到的照片或圖像進(jìn)行增強(qiáng);其次,使用基于神經(jīng)網(wǎng)絡(luò)的認(rèn)知算法對(duì)物體進(jìn)行檢測(cè)和識(shí)別,F(xiàn)有的神經(jīng)網(wǎng)絡(luò)加速器解決方案皆依賴(lài)與圖像DSP連接的硬件加速器;神經(jīng)網(wǎng)絡(luò)代碼被分為兩部分,一部分網(wǎng)絡(luò)層運(yùn)行在DSP上,卷積層則運(yùn)行在硬件加速器上。這種架構(gòu)不但效率低下,且耗能較高。
Vision C5 DSP是專(zhuān)門(mén)針對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行了特定優(yōu)化的DSP,可以實(shí)現(xiàn)全神經(jīng)網(wǎng)絡(luò)層的計(jì)算加速(卷積層、全連接層、池化層和歸一化層),而不僅僅是卷積層的加速。因此,主視覺(jué)/圖像DSP能力得以釋放,獨(dú)立運(yùn)行圖像增強(qiáng)應(yīng)用,Vision C5 DSP則負(fù)責(zé)執(zhí)行神經(jīng)網(wǎng)絡(luò)任務(wù)。通過(guò)移除神經(jīng)網(wǎng)絡(luò)DSP和主視覺(jué)/圖像DSP之間的冗余數(shù)據(jù)傳輸,Vision C5 DSP的功耗遠(yuǎn)低于現(xiàn)有的神經(jīng)網(wǎng)絡(luò)加速器。同時(shí),Vision C5 DSP還提供針對(duì)神經(jīng)網(wǎng)絡(luò)的單核編程模型。
為了讓讀者更快地明白這兩者的區(qū)別,電子工程專(zhuān)輯記者還是打算再添幾張PPT:
區(qū)別2:神經(jīng)網(wǎng)絡(luò)、加速器與神經(jīng)網(wǎng)絡(luò)DSP的區(qū)別
再附上一張Vision C5 DSP與目前商用的GPU的對(duì)比
圖:Vision C5 DSP跟CPU、GPU、神經(jīng)網(wǎng)絡(luò)加速器在嵌入式系統(tǒng)中的應(yīng)用場(chǎng)合對(duì)比
Pulin Desai總結(jié):Vision C5 DSP是一款靈活前瞻的永不過(guò)時(shí)(future-proof)解決方案,支持各類(lèi)內(nèi)核尺寸、深度和輸入規(guī)格。Vision C5 DSP采用多項(xiàng)系數(shù)壓縮/解壓技術(shù),支持未來(lái)添加的新計(jì)算層。與之相反,CNN硬件加速器由于程序重編能力有限,擴(kuò)展能力較差。
已經(jīng)公布的Vision DSP 生態(tài)伙伴。不過(guò)小編沒(méi)有看到有中國(guó)國(guó)內(nèi)的公司。這也側(cè)面說(shuō)明中國(guó)的神經(jīng)網(wǎng)絡(luò)研究的步伐可能還有點(diǎn)落后吧。
最后附上Vision C5 DSP的參數(shù)與性能說(shuō)明
依托獨(dú)立引擎,Vision C5 DSP具備領(lǐng)先的神經(jīng)網(wǎng)絡(luò)性能:
• 不到1mm2的芯片面積可以實(shí)現(xiàn)1TMAC/秒的計(jì)算能力(吞吐量較Vision P6 DSP提高4倍),為深度學(xué)習(xí)內(nèi)核提供極高的計(jì)算吞吐量
• 1024 8-bit MAC或512 16-bit MAC 確保8-bit 和16-bit精度的出色性能
• 128路8-bit SIMD或64路16-bit SIMD的VLIW SIMD架構(gòu)
• 專(zhuān)為多核設(shè)計(jì)打造,以極少的資源代價(jià)獲得NxTMAC的處理能力
• 內(nèi)置iDMA和AXI4總線(xiàn)接口
• 使用與Vision P5和P6 DSP一致的經(jīng)驗(yàn)證軟件工具包
• 基于業(yè)界知名的AlexNet CNN Benchmark,Vision C5 DSP的計(jì)算速度較業(yè)界的GPU最快提高6倍;Inception V3 CNN benchmark,有9倍的性能提升。
Vision C5 DSP搭載Cadence神經(jīng)網(wǎng)絡(luò)Mapping工具鏈,可將Caffe和TensorFlow等映射為在Vision C5 DSP上高度優(yōu)化過(guò)的可執(zhí)行代碼,充分發(fā)揮手動(dòng)優(yōu)化神經(jīng)網(wǎng)絡(luò)庫(kù)的豐富功能。
轉(zhuǎn)載請(qǐng)注明來(lái)源:賽斯維傳感器網(wǎng)(m.renegade-mag.com)
- 如果本文收錄的圖片文字侵犯了您的權(quán)益,請(qǐng)及時(shí)與我們聯(lián)系,我們將在24內(nèi)核實(shí)刪除,謝謝!