TPU是一(yī)款自主的、高性能的、通用深度學習加速棒。同時支持X86平台、ARM平台、MIPS平台等主流平台的運行。内置CNN網絡加速引擎,可以實現高性能、低功耗的CNN網絡模型的加速。TPU架構設計先進,可以高效完成多路動态視頻(pín)流的人臉檢測、跟蹤、特征提取和識别,高效支持墨鏡、口罩、性别、年齡等屬性檢測。提供強大(dà)的可編程運算能力,滿足CNN算法實時性處理的運算要求。芯片有自定義指令集和編程框架,除可運行人臉識别算法外(wài),還支持其他主流的 CNN算法移植,包括服裝識别、表情識别、背包識别等。同時也支持其他計算機視覺CNN 算法移植和應用。
借助TPU,計算機視覺和人工(gōng)智能可以輕松地部署到物(wù)聯網和邊緣設備上。無論開(kāi)發者研發智能相機、無人機、工(gōng)業機器人、智能家居設備或是實現邊緣計算項目,TPU都能讓原型設備運行得更加快速、更加智能。此外(wài),借助TPU生(shēng)态系統,開(kāi)發者現在可以将他們的TPU原型移植到其他産品上,并實現設計的産品化。TPU的優點是不需要額外(wài)的硬件,因此用戶可以快速轉換并将計算機訓練模型無縫部署到各種各樣的設備上,并且無需網絡或雲端連接。也就是說,開(kāi)發者隻要一(yī)台筆記本電(diàn)腦和TPU,僅需數分(fēn)鍾就可以讓其AI 應用程序運轉。
TPU實現了深度學習異構計算,可以在标準的USB3.0串行通信口上進行計算機視覺與人工(gōng)智能的推理加速。TPU支持多路圖片和視頻(pín)的編解碼,并可以實現多路的視頻(pín)和圖片編解碼。TPU的AI加速核心共有4個,每個加速核心提供0.5TPOS的計算算力,并可以根據實際需求設定加速核心的個數從而調節TPU的運行功率。TPU還支持目前AI領域的主流框架:Mxnet、Tensorflow、Pytorch 和Caffe。在AI加速項目部署功能方面還支持Graph模式,以數據流的方式,提供跨平台(主控和TPU)的數據流水處理。Graph 提供直觀的編程模式,支持json 配置文件創建,在主控端直接調用TPU上的NodeClass 算子,大(dà)大(dà)提高解決方案設計效率。
這些強大(dà)的功能背後的實現依賴的是TPU上的強大(dà)的固件系統和穩定的硬件設備,通過标準的USB3.0接口把多路視頻(pín)流或者圖片傳輸到TPU上的主控芯片上,由TPU内部進行視頻(pín)解碼或者圖片解碼。使用提供的desdk api進行基于TPU的項目開(kāi)發,由編譯工(gōng)具鏈把項目編譯,完成後下(xià)載到固件系統上部 署,如設定好要使用的加速算子、業務流程、調用的加速核心數量、輸入的圖片大(dà)小(xiǎo)和模型等等,項目運行後就可以通過USB3.0端口進行數據交換,從而獲得經過TPU加速計算後的數據。
處理器内核 :
⚫ 32 位超高性能嵌入式 CPU 處理器;
⚫ 支持 16/32 位混合編碼的 RISC 指令集;
⚫ L1 I/D 32KByte,L2 128KByte,主頻(pín)最高支持 1.0GHz;
⚫ 單位性能最高支持 2.5DMIPS/MHz;
⚫ 支持大(dà)端和小(xiǎo)端模式;
⚫ 支持 MMU,MMU 支持軟件動态配置地址映射表;
⚫ 内部硬件調試模塊支持片上硬件調試;
⚫ 支持内核省電(diàn)和動态頻(pín)率調整等低功耗技術;
神經網絡處理器 NNP:
⚫ 内含四核 NNP 神經網絡處理器,主頻(pín)最高支持 750Mhz;
⚫ 自定義神經網絡處理器指令集和架構;
⚫ 支持 INT16/INT12/INT8 數據類型;
⚫ 支持 CNN 算法所需的指令集;
⚫ 支持 weight 參數壓縮;
⚫ 支持 feature map 壓縮;
⚫ 支持 caffe/tensorflow/mxnet 等主流深度學習框架;
⚫ 支持 Invasive 和 non-Invasive 的通用 Debug 架構;
⚫ 支持處理器級聯擴展、支持協處理器擴展;
⚫ 時鍾門控、電(diàn)源門控、多電(diàn)壓等典型低功耗技術;
DSP 處理器 :
⚫ 雙核 Vision Processor DSP,主頻(pín)最高支持 550Mhz;
⚫ 32KB I-Cache/64KB ITCM/256KB DTCM;
⚫ 支持小(xiǎo)端方式; 加速運算子 ACC :
⚫ 支持色彩空間轉換;
⚫ 支持視頻(pín)縮放(fàng);
⚫ 支持梯度統計;
⚫ 支持直方圖統計;
⚫ 支持 FFT 運算;
視頻(pín)解碼 :
⚫ 支持多路 H.264 解碼,性能爲 4KP30;
⚫ 支持多路 H.265 解碼,性能爲 4KP30,同時支持參考幀壓縮功能;
⚫ 支持 I 幀/P 幀/B 幀解碼;
⚫ 支持 MPEG4/MPEG2/MPEG1 解碼;
⚫ 支持 JPEG 解碼,解碼 IMAGE SIZE 支持 48x48 to 16Kx16K;
⚫ 支持 Clock gating 功能;
⚫ 支持 Powerdown 功能;
視頻(pín) JPEG 編碼 :
⚫ 支持 YCbCr4:2:0 Planar、YCbCr4:2:0 semi-planar、YCrCb4:2:0 semiplanar 格式輸入; ⚫ 支持 RGB565、RGB888 和 RGB101010 格式輸入;
⚫ 支持輸入圖像分(fēn)辨率範圍 96x32 to 8192x8192,像素尺寸步進爲 4;
⚫ 支持 RGB to YCbCr4:2:0 色彩空間轉換;
⚫ 支持 YCbCr4:2:2 to YCbCr4:2:0 色彩空間轉換;
⚫ 支持 8Kx8K@2fps 編碼性能;
MIPI CSI :
⚫ 支持 MIPI CSI1.2 RX 4 Lane 輸入接口,最高性能爲 4K30;
⚫ 可支持的 YUV 數據類型:YUV420/YUV422,支持 8bit;
⚫ 支持 RAW8 格式輸入;
⚫ 符合标準 MIPI CSI-2 協議 V1.2,向下(xià)兼容 V1.1 和 V1.0;
USB :
⚫ 支持 USB 3.0/USB 2.0 标準協議,支持 super-speed, high-speed, fullspeed, low-speed
⚫ 支持 HOST 模式、DEVICE 模式,HOST 和 DEVICE 模式可軟件配置切換,在 上電(diàn)時配置切換, ⚫ 不支持使用中(zhōng)動态切換;
⚫ HOST 和 DEVICE 模式都支持協議規定的 CTRL/BULK/ISO/INTR 傳輸類型;
⚫ 不支持 OTG 功能;
BT1120 :
⚫ 支持 BT1120 視頻(pín)輸入接口,性能最高支持 1080p@60fps;
⚫ 1 根時鍾線,16 根數據線,數據傳輸隻支持并口模式;
⚫ 隻支持逐行模式,支持典型的 720p/1080p 時序;
DDR :
⚫ DDR4 支持最高速率 2667Mbps;
⚫ 外(wài)接 DDR 2GByte;
⚫ 支持 ODT 功能;
⚫ 支持 QOS 功能;
⚫ 支持動态 Training 功能;
芯片處理能力 :
⚫ 芯片提供 2.0Tops 峰值算力:滿足視覺 AI 算法實時性處理的運算要求;
⚫ 支持每秒最大(dà) 1200 張人臉跟蹤能力;
其它說明 :
⚫ 内含 2 個 Temp_sensor,支持功耗動态管理;
⚫ 支持版本在線升級;
Tag: AI