The Future of Classical Computing (Heterogeneous Architecture – CPUs, GPUs, FPGAs, ASICs,...)
來源: 机器学习研究会 竑观投资
一、 人工智慧晶片發展現狀及趨勢
1、深度學習算法對晶片要求更為苛刻,透用 CPU 性價比相對較差
經歷了 60 多年的起起伏伏之後,人工智慧終於迎來了第三次爆發。第三次爆發的核心引爆點,是深度學習算法的出現,但其背後的支撐是數據和算力。
對整個 AI 行業來講,算法、數據和算力三大基本要素中,數據尤其是海量數據的獲取和處理難度在下降,算法也在深度學習模型的基礎上不斷優化,而負責將數據和深度算法,統一協調起來的晶片能否獲得大的飛躍,成為市場關注的焦點。
深度學習算法對晶片性能需求,主要表現在三個方面:
一、海量數據在運算和儲存單元之間的高速通信需求。這不但需要晶片具備強大的暫存和片上儲存能力,而且還需要運算和儲存單元之間,有較大的通信頻寬。
二、專用運算能力需求高。深度學習算法中有大量卷積、殘差網絡、全連接等特殊運算需要處理,還需要提升運算速度,降低功耗。
三、海量數據自身處理同樣也對芯片提出了新的要求,尤其是非結構化數據的增多,對傳統芯片結構造成了較大的壓力。
通用 CPU 在深度學習中可用但效率較低。比如在圖像處理領域,主要用到的是 CNN (卷積神經網絡),在自然語言識別、語音處理等領域,主要用到的是 RNN (循環神經網路),雖然這兩種算法模型有著較大的區別,但本質上都是向量和矩陣運算,主要是加法和乘法,輔助一些除法和指數運算。
傳統 CPU 可用於做上述運算,但是 CPU 還有大量的運算邏輯控制單元,這些單元在 AI 運算中是用不上的,造成了 CPU 在 AI 運算中的性價比較低。
2、GPU、FPGA 以及 ASIC 各有優劣,成為當前 AI 晶片行業的主流
正因為 CPU 在 AI 運算上的弱點,給了可以實現海量並行運算,且能夠對進行計算加速的 AI 晶片留下了市場空間。從廣義上講,面向 AI 運算的晶片,都可以稱為 AI 晶片,包括基於傳統架構的 GPU、FPGA 以及 ASIC (專用晶片),也包括正在研究,但離商用還有較大差距的類腦晶片、可重構 AI 晶片等。
雲端訓練晶片市場較為集中,而推理市場雲、邊兩端均有大量企業參與,按照部署位置劃分,AI 晶片可以分為雲端晶片和邊緣端晶片。雲端晶片部署位置包括公有雲、私有雲或者混合雲等基礎設施,主要用於處理海量數據和大規模運算,而且還要能夠支持語音、圖片、影像等,非結構化應用的運算和傳輸,一般情況下都是用多個處理器,並行完成相關任務;邊緣端 AI 晶片主要應用於嵌入式、行動終端等領域,如攝影機、智慧手機、邊緣伺服器、工控設備等,此類晶片一般體積小、耗電低,性能要求略低,一般只需具備一兩種 AI 能力。
按照承擔的任務分,AI 晶片可以劃分為訓練晶片和推理晶片。訓練是指透過大量標記過的數據,在平台上進行「學習」,並形成具備特定功能的神經網路模型;推理則是利用已經訓練好的模型,輸入新數據,透過運算得到各種結論。訓練晶片對算力、精度要求非常之高,而且還需要具備一定的通用性,以適應多種算法的訓練;推理晶片更加註重綜合能力,包括算力能耗、時延、成本等因素。
綜合來看,訓練晶片由於對算力的特殊要求,只適合在雲端部署,而且多採用的是「CPU + 加速晶片」類似的異構模式,加速晶片可以是 GPU,也可以是 FPGA 或者是 ASIC 專用晶片。AI 訓練晶片市場集中度高,英偉達和谷歌領先,英特爾和 AMD 正在積極切入。
推理在雲端和終端都可進行,市場門檻相對較低,市場參與者較多。雲端推理晶片除了傳統的英偉達、谷歌、賽靈思等晶片大廠外,Groq 等國際新興力量也在加入競爭,對岸中國寒武紀、比特大陸也有不錯表現;終端推理晶片市場較為分散,場景各異,參與者除了英偉達、英特爾、ARM
和高通之外,對岸中國企業如寒武紀、地平線、雲知聲、雲天勵飛等在各自細分領域均有所建樹。
GPU 擅長雲端訓練,但需與 CPU 異構、功耗高且推理效率一般 GPU (Graphics Processing Unit)是一種由大量核心組成的,大規模並行運算架構,專為同時處理多重任務而設計的晶片。正是由於其具備良好的矩陣計算能,力和並行運算優勢,最早被用於 AI 運算,並在雲端獲得大量應用。
GPU 中超過 80% 部分為運算單元(ALU),而 CPU 僅有 20%,因此 GPU 更擅長於大規模並行運算。以英偉達的 GPU TITAN X 為例,該產品在深度學習中,所需訓練時間只有 CPU 的 1/10 不到。
但 GPU 用於雲端訓練也有缺點,GPU 需要同 CPU 進行異構,透過 CPU 調用才能工作,而且本身功耗非常高。同時,GPU 在推理方面,需要對單項輸入進行處理時,並行運算的優勢,未必能夠得到很好的發揮,會出現較多的資源浪費。
▲ CPU 與 GPU 架構對比
FPGA 晶片算力強、靈活度高,但技術難度大,對岸中國差距較為明顯
FPGA (Field-Programmable Gate Array)即現場可編程門陣列,該晶片整合了大量的基本門電路以及儲存器,其靈活性介於 CPU、GPU 等通用處理器,和專用整合電路 ASIC 之間,在硬體固定之前,允許使用者靈活使用軟體進行編程。
FPGA 在出廠時是「萬能晶片」,使用者可根據自身需求,用硬體描述語言,對 FPGA 的硬體電路進行設計;每完成一次燒錄,FPGA 內部的硬體電路,就有了確定的連接方式,具有了一定的功能;輸入的數據只需要依次經過各個門電路,就可以得到輸出結果。
FPGA 應用於 AI 有以下優勢:
(1)算力強勁。由於 FPGA 可以同時進行,數據並行和任務並行運算,在處理特定應用時,效果更加明顯,對於某一個特定的運算,FPGA 可以透過編輯重組電路,生成專用電路,大幅壓縮運算週期。從賽靈思推出的 FPGA 產品看,其吞吐量和時延指標,都好於 CPU 和 GPU 產品。
(2)功耗優勢明顯。FPGA 能耗比是 CPU 的 10 倍以上、GPU 的 3 倍。由於在 FPGA中,沒有取指令與指令譯碼操作,沒有這部分功耗;而在複雜指令集(X86)的 CPU 中僅僅譯碼就佔整個晶片能耗的約 50%,在 GPU 裡取指與譯碼,也會消耗 10% 至 20% 的能耗。
(3)靈活性好。使用通用處理器或 ASIC ,難以實現的下層硬體控制操作技術,利用 FPGA 可以很方便的實現,從而為算法的功能實現和優化,留出了更大空間。
(4)成本相對 ASIC 具備一定優勢。FPGA 一次性成本(光刻掩模製作成本)遠低於
ASIC,在晶片需求還未成規模、深度學習算法暫未穩定,需要不斷更新改進的情況下,利用具備可重構特性的 FPGA 晶片,來實現半訂製的人工智慧晶片是最佳選擇。
正因為存在上述優勢,FPGA 被廣泛用於 AI 雲端和終端的推理。包括亞馬遜、微軟都推出了基於 FPGA 的雲端運算服務,而對岸中國包括騰訊雲、阿里雲,均在 2017 年推出了基於 FPGA 的服務,百度大腦也使用了 FPGA 晶片。
從市場格局上看,全球 FPGA 長期被 Xilinx (賽靈思)、Intel (英特爾)、Lattice (萊迪思)、Microsemi (美高森美)四大巨頭壟斷。其中,賽靈思和英特爾合計佔到市場的 90% 左右,賽靈思的市場佔有率超過 50%,對岸中國廠商剛剛起步,差距較大。
專用晶片(ASIC)深度學習算法加速應用增多,可提供更高能效表現和運算效率 ASIC (Application Specific Integrated Circuits),即專用晶片,是一種為特定目的、針對特定使用端需求設計的訂製晶片,具備性能更強、體積小、功耗低、可靠性更高等優點。在大規模量產的情況下,還具備成本低的特點。
ASIC 與 GPU、FPGA 不同,GPU、FPGA 除了是一種技術路線之外,還是實實在在的確定產品,而 ASIC 只是一種技術路線或者方案,其呈現出的最終形態與功能,也是多種多樣的。近年來,越來越多的公司開始採用 ASIC 晶片,進行深度學習算法加速,其中表現最為突出的 ASIC ,就是 Google 的 TPU (張量處理晶片)。
TPU 是谷歌為提升 AI 運算能力,同時大幅降低功耗,而專門設計的晶片。該晶片正式發佈於 2016 年 5 月。TPU 之所以稱為 AI 專用晶片,是因為它是專門針對 TensorFlow 等機器學習平台而打造,該晶片可以在相同時間內處理更複雜、更強大的機器學習模型。谷歌透過數據中心測試顯示,TPU 平均比當時的 GPU 或 CPU 快 15-30 倍,性能功耗比(TFOPS/Watt)高出約 30-80 倍。
但是,ASIC 一旦製造完成以後,就不能修改了,且研發週期較長、商業應用風險較大,目前只有大企業或背靠大企業的團隊,願意投入到它的完整開發中。國際上主要是谷歌在主導,
對案中國寒武紀開發的 Cambricon 系列處理器,也廣泛受到關注。其中,華為海思的麒麟 980 處理器所搭載的 NPU ,就是寒武紀的處理器 IP。
3、短期內 GPU 仍將是 AI 晶片主導,長期看三大技術路線,將呈現並行態勢
短期內 GPU 仍將主導 AI 晶片市場,FPGA 的使用將更為廣泛。GPU 短期將延續 AI 晶片的領導地位。GPU 作為市場上 AI 運算最成熟、應用最廣泛的通用型晶片,應用潛力較大。憑借其強大的運算能力、較高的通用性,GPU 將繼續佔領 AI 晶片的主要市場佔有率。
當前,兩大 GPU 廠商,都還在不斷升級架構並推出新品,深度學習性能提升明顯,未來應用的場景將更為豐富。英偉達憑借著其在矩陣運算上的優勢,率先推出了專為深度學習優化的
Pascal GPU,而且針對 GPU 在深度學習上的缺點,2018 年推出了 Volta 架構,正在完成加速-運算-AI 建構的閉環;AMD 針對深度學習,2018 年推出 Radeon Instinct 系列,未來將應用於數據中心、超算等 AI 基礎設施上。我們預計,在效率和場景應用要求大幅提升之前,作為數據中心和大型運算力支撐的主力軍,GPU 仍具有很大的優勢。
FPGA 是短期內 AI 晶片市場上的重要成長點,FPGA 的最大優勢,在於可編程帶來的配置靈活性,在當前技術與運用,都在快速更新的時期,FPGA 具有明顯的實用性。企業透過 FPGA 可以有效降低研發調試成本,提高市場響應能力,推出差異化產品。在專業晶片發展得足夠完善之前,FPGA 是最好的過渡產品,正因為如此,科技巨頭紛紛佈局雲端運算 + FPGA 的平台。
隨著 FPGA 的開發者生態逐漸豐富,適用的編程語言增加,FPGA 運用會更加廣泛。因此短期內,FPGA 作為兼顧效率和靈活性的硬底選擇,仍將是熱點所在。
長期來看 GPU、FPGA 以及 ASIC 三大類技術路線將並存
GPU 主要方向是高級複雜算法,和通用型人工智能慧平台。
(1)高端複雜算法實現方向。由於 GPU 本身就具備高性能運算優勢,同時對於指令的邏輯控制上可以做的更複雜,在面向複雜 AI 運算的應用方面具有較大優勢。
(2)通用型的人工智能平台方向。GPU 由於通用性強,性能較高,可以應用於大型人工智慧平台,夠高效地完成不同種類的調用需求。
FPGA 未來在垂直行業有著較大的空間。由於在靈活性方面的優勢,FPGA 對於部分市場變化迅速的行業最為實用。同時,FPGA 的高端器件中,也可以逐漸增加 DSP、ARM 核等高級模組,以實現較為複雜的算法。隨著 FPGA 應用生態的逐步成熟,FPGA 的優勢也會逐漸為更多用戶所認可,並得以廣泛應用。
ASIC 長遠來看非常適用於人工智慧,尤其是應對未來爆發的,針對應用場景的訂製化晶片需求。ASIC 的潛力體現在,AI 算法廠商有望透過算法,嵌入切入該領域,以進入如安控、智慧駕駛等場景。由於其具備高性能低消耗的特點,可以基於多個人工智慧算法進行訂製,以應對不同的場景,未來在訓練和推理市場上都有較大空間。
4、 AI 晶片市場需求,將保持較快成長態勢,雲端、邊緣均具備潛力
近年來,伴隨著全球 AI 產業的快速成長,AI 晶片需求大幅上升。按照 Gartner 最新數據,2018 年全球 AI 晶片市場規模達到 42.7 億美元。未來幾年,全球各大晶片企業、網路巨頭、芯創企業都將在該市場上進行角逐,預計到 2023 年全球市場規模將達到 323 億美元。未來五年(2019-2023 年)平均增速約為 50%,其中數據中心、個人終端、物聯網晶片,均是成長的重點。
相比之下,對岸中國的中金公司研究部,公佈的一組數據則更為樂觀,該數據顯示,2017 年,整體 AI 晶片市場規模達到 62.7 億美元,其中雲端訓練 AI 晶片 20.2 億美元,雲端推理晶片 3.4 億美元,邊緣運算 AI 晶片 39.1 億美元;到 2022 年,整體 AI晶片市場規模將會達到 596.2 億美元,CAGR57%,其中雲端訓練 AI 晶片 172.1 億美元,CAGR 53.5%,雲端推斷晶片 71.9 億美元,CAGR 84.1%,邊緣運算 AI 晶片 352.2 億美元,CAGR 55.2%。
對岸中國人工智慧晶片行業發展,仍處在起步階段。長期以來,中國在 CPU、GPU 和 DSP 設計上一直處於追趕狀態,絕大多數晶片依靠國際的 IP 核進行設計,自主創新能力不足。但也看到,對岸中國人工智慧產業的快速發展,中國晶片產業未來發展,仍不容輕忽。
目前對岸中國人工智慧晶片市場呈現出百花齊放的態勢。AI 晶片的應用領域廣泛分布在金融證券、商品推薦、安控、消費機器人、智慧駕駛、智慧家庭等眾多領域,催生了大量的人工智慧新創公司,如地平線、深鑒科技、寒武紀、雲知聲、雲天勵飛等。
二、 AI 晶片主要應用場景
1、數據中心(雲端)
數據中心是 AI 訓練晶片應用的最主要場景,主要涉及晶片是 GPU 和專用晶片(ASIC)。如前所述,GPU 在雲端訓練過程中,得到廣泛應用。目前,全球主流的硬體平台,都在使用英偉達的 GPU 進行加速,AMD 也在積極參與。亞馬遜網路服務 AWS EC2、Google Cloud Engine (GCE)、IBM Softlayer、Hetzner、Paperspace、Leader GPU、阿里雲、平安雲等運算平台,都使用了英偉達的 GPU 產品,提供深度學習算法訓練服務。
在雲端推理市場上,由於晶片更加貼近應用,市場更多關注的是響應時間,需求也更加的細分。除了主流的 CPU+GPU 異構之外,還可透過 CPU + FPGA/ASIC 進行異構。目前英偉達在該市場依然保持著領軍位置。主要原因是:GPU 強大的並行運算能力(相比 CPU)、通用性以及成熟的開發環境。但是 GPU 也並非是完美無缺的解決方案,明顯的缺點如:高能耗以及高昂的價格。
相比之下,FPGA 的低延遲、低功耗、可編程性優勢(適用於傳感器數據預處理工作,以及小型開發試錯升級更新階段)和 ASIC 的特定優化和效能優勢(適用於在確定性執行模型)也正在凸顯,賽靈思、谷歌、Wave Computing、Groq、寒武紀、比特大陸等公司,市場空間也在擴大。
來自 IDC 和 Gartner 的數據也顯示,全球 AI 伺服器及 AI 晶片市場規模,自 2016 年到 2020 年都將保持持續的高速成長,而與此同時全球雲端 AI 晶片當中, GPU 的市佔率呈現出持續下滑的趨勢,預計到 2022 年雲端訓練 GPU 佔比將降至 60%,雲端推理 GPU 佔比,更是只有 30%。
2、行動終端
智慧手機在經歷了近 10 年的高速成長後,市場已趨於飽和,出貨增速趨近於 0,行業逐漸轉為存量市場。近年來,一批中國製廠商在產品品質上,逐漸達到了第一梯隊的水準,進一步加劇了頂端市場的競爭。
為實現差異化競爭,各廠商加大手機 AI 功能的開發,透過在手機 SoC 晶片中加入 AI 引擎,調配現有運算單元,來實現 AI 運算,或者直接加入 AI 協處理器,實現在低功耗情況下, AI 功能的高效運行。
隨著未來競爭進一步加劇,以及產量上升所帶來的成本下降,預計 AI 晶片將會進一步滲透進入到中等機型市場,市場空間廣闊。行動端 AI 晶片市場不止於智慧手機,潛在市場還包括:智慧手環 / 手錶、VR/AR 眼鏡等市場。AI 晶片在圖像及語音方面的能力,可能會帶來未來人機交互方式的改變,並進一步提升顯示幕、攝影機的能力,有可能在未來改變行動端產品。
以往透過雲端數據中心,做手機端 AI 推理任務,面臨網路頻寬延遲瓶頸的問題,嚴重影響消費者使用體驗,而 CPU 適合邏輯運算,但並不適合 AI 並行運算任務,目前市場上流行在 SoC 中增,加協處理器或專用加速單元,來執行 AI 任務。
以智慧手機為代表的行動網路終端,是一個多感測器融合的綜合數據處理平台,AI 晶片需要具備通用性,能夠處理多類型任務能力。由於行動終端依靠電池驅動,而受制於電池倉大小和電池能量密度限制,晶片設計在追求算力的同時,對功耗有著嚴格的限制,可以開發專用的 ASIC 晶片,或者是使用功耗較低的 DSP,作為 AI 處理單元。
目前手機晶片市場存在以下情況:
1)、AI 應用場景、功能有限;2)、AI 晶片廠商一般向 SoC 廠提供 IP 並收取授權費,需要 AI-IP 與整塊 SoC 進行良好的匹配,而新創公司缺少與 SoC 廠商合作經驗;3)、傳統手機 SoC 廠商和 IP 廠商,都在開發自己的 AI 加速器,傳統 IP 巨頭可以採取 IP 打包銷售的方式,推廣其 AI-IP 產品。
相比之下新進廠商在成本、功能、產品線、匹配度等,都不佔優的情況下,很難在該領域存活。新進廠商應加強其軟體方面優勢,並加深與手機廠商合作,共同進行手機 AI 功能開發。
3、自動駕駛
自動駕駛汽車裝備了大量的感測器、攝影機、雷達、雷射雷達等,車輛自主運行需要的部件,每秒都會產生大量的數據,對晶片算力有很高的要求,
但受限於時延及可靠性,有關車輛控制的運算,不能再依託雲端進行,高算力、快速響應的車輛端人工智慧推理晶片必不可少。
目前,自動駕駛所使用的晶片主要基於 GPU、FPGA 和 ASIC 三條技術路線。但由於自動駕駛算法,仍在快速更新和進化,因此大多自動駕駛晶片使用 GPU + FPGA 的解決方案。未來算法穩定後,ASIC 將成為主流。
根據美國汽車工程師協會(SAE),將自動駕駛按照車輛行駛,對於系統依賴程度分為 L0~L5 六個級別,L0 為車輛行駛完全依賴駕駛員操縱,L3 級以上系統,即可在特定情況下實現駕駛員脫手操作,而 L5 級則是在全場景下,車輛行駛完全實現對系統的依賴。目前商業化乘用車車型中僅有 Audi A8、Tesla、凱迪拉克等部分車型,可實現 L2、3 級 ADAS。
預計在 2020 年左右,隨著感測器、車載處理器等產品的進一步完善,將會有更多的 L3 級車型出現。而 L4、5 級自動駕駛,預計將會率先在封閉園區中的商用車平台上,實現應用落地,更廣泛的乘用車平台高級別自動駕駛,需要伴隨著技術、政策、基礎設施建設的進一步完善,預計至少在 2025 年 ~2030 年以後才會出現在一般道路上。
目前汽車電子控制系統,是分布式 ECU 架構,不同的資訊娛樂、車身、車輛運動,和動力總成系統,及其細分功能,分別由不同獨立的 ECU 單元進行獨立控制,部分高檔車型上的 ECU 數量超過 100 個。
未來隨著汽車進入 L3 級以上的,高級別自動駕駛時代,隨著車載感測器數量,及其所產生的數據量劇增,分布式電子系統難以滿足,對大量、多元的感測器數據,進行高效融合處理,並綜合所有感測器數據,做出車輛控制決策等一系列操作需求。
要滿足以上功能需求,汽車電子系統由需要向著場域控制器(DCU)、多域控制器(MDC)等集中化方向發展,未來,汽車電子操控系統將會進一步向著集中化、軟硬體解耦及平台化方向發展,汽車將會由統一的超算平台,對感測器數據進行處理、融合、決策最終實現高級別的自動駕駛功能。
伴隨人工智慧技術在視覺領域的應用,基於視覺技術的自動駕駛方案,逐漸變為可能,這需要在傳統行車電腦平台上,添加用於視覺算法處理的 AI 晶片。
自動駕駛汽車運算單元設計,需要考慮算力、功耗體積等問題,出於硬體資源最優化應用,往往採取異構計算平台設計方案,及「CPU+XPU」(XPU 包括 DSP/GPU/FPGA/ASIC),其中可採取 DSP 用於圖像特徵提取任務、GPU/FPGA/ASIC 等運算單元,用於目標辨識、追蹤任務等,而 CPU 則會用於定位、決策等邏輯運算任務。
目前最典型的產品如英偉達的 DRIVE PX 系列,及後續的 Xavier、Pegasus 等。除硬體運算平台外,英偉達為客戶提供配套的軟體平台,及開放的上層感測器佈局和自定義模組,使得客戶能夠根據自身需要,進行二次開發,其還為客戶提供感知、製圖,以及行駛策略等解決方案。
目前其產品已經被包括 ZF、Bosch、Audi、Benz 以及 Tesla 等 Tier1 s、OEMs 廠商,及諸多自動駕駛新創公司,採用作為其處理器方案所使用。
在全部的邊緣運算場景中,用於自動駕駛的運算晶片設計難度最大,這主要體現在:
1)算力要求高,L3 級以上自動駕駛,需要複數種類的感測器,實現感測器冗餘,包括:6~12 顆單目攝晶、3~12 台毫米波雷達、5 台以內的雷射雷達等(不同方案配置側重不同),因此產生的數據量極大(估計 L5 級一天可產生數據量 4000 GB),在車輛高速行駛的情況下系統需要能夠快速對數據進行處理;
2)汽車平台同樣是由電池供電,因此對於運算單元功耗有較高的要求,早期計算平台功耗大、產熱也較大,對於系統的續航及穩定性都有較大的印象;
3)汽車電子需要滿足 ASIL-D 車規級電子產品設計標準,而使自動駕駛所需要的中央處理器,達到 ASIL-D 級設計標準難度更大。
目前自動駕駛市場尚處於發展早期,市場環境不夠成熟,但以英偉達、Intel(Mobileye、Altera)等科技巨頭為代表的廠商,已經投入巨資在該領域,開發出了相關的硬體產品及配套軟體技術。人工智慧晶片新創公司,應該加強與 OEMs、Tier1 或產業聯盟合作,為其提供 AI 晶片+軟體工具鏈的全套解決方案。
AI
晶片用於自動駕駛之後,對傳統的汽車電子市場衝擊較大,傳統的汽車電子巨頭(恩智浦、英飛凌、意法半導體、瑞薩)雖然在自動駕駛晶片市場有所斬獲,但風頭遠不及英特爾、英偉達、高通甚至是特斯拉。
對岸中國新創公司如地平線、眼擎科技、寒武紀,也都在積極參與。在自動駕駛晶片領域,進展最快,以及競爭力最強的是英特爾和英偉達,英特爾強在能耗,英偉達則在算力和算法平台方面優勢明顯。
英特爾進入自動駕駛晶片市場雖然較晚,但透過一系列大手筆收購,確立了其在自動駕駛市場上的龍頭地位。2016 年,公司出資 167 億美元收購了 FPGA 龍頭 Altera;2017 年 3 月以 153 億美元天價,收購以色列 ADAS 公司 Mobileye,該公司憑借著 EyeQ 系列晶片,佔據了全球 ADAS 70% 左右的市場,為英特爾切入自動駕駛市場創造了條件。
收購完成之後,英特爾形成了完整的自動駕駛,雲到端的算力方案 —— 英特爾凌動 / 至強 + Mobileye EyeQ + Altera FPGA。英特爾收購 Mobileye 之後,後者也直接推出了 EyeQ5,支持 L4-L5 自動駕駛,預計在 2020 年量產。
英偉達在汽車 AI 晶片的競爭中不落下風。英偉達在 2015 年推出了世界首款,車載超級運算處理器 Drive PX,緊接著 2016 年推出 Drive PX2,2018 年推出新一代超級處理器 Drive Xavier,同年,基於雙 Drive Xavier 晶片,針對自動駕駛出租車業務的 Drive PX Pegasu 運算平台面世。
2019 CES 上,英偉達推出了全球首款商用 L2 + 自動駕駛系統 NVIDIA DRIVE AutoPilot。DRIVE AutoPilot 的核心是 Xavier 系統級晶片。該晶片處理器算力高達每秒 30 萬億次,已經投產。
4、安控
安控市場是全球 AI 最為確定,以及最大的市場,尤其是 AI 中的圖像辨識和影像處理技術,正在全面影響安控產業。其中,在安控產品中,攝影機、交換機、IP Cam (網路攝影機)、數位錄機、各類伺服器等設備,都需要晶片。
這些晶片也決定了整個安控系統的整體功能、技術指標、能耗以及成本。在安控晶片中,最為關注的還是四類與監控相關的晶片(ISP晶片、DVR SoC 晶片、IP Cam SoC 晶片、NVR SoC 晶片)。
ISP 晶片 (Image Signal Processing,圖像信號處理) ,主要負責對前端攝影機,所採集的原始圖像信號進行處理;DVR SoC 晶片主要用於類比音視訊的數位化、編碼壓縮與儲存;IP Cam SoC 晶片,通常整合了嵌入式處理器(CPU)、圖像信號處理(ISP)模組、音視訊編碼模組、網路接口模組等,具備入侵探測、人數統計、車輛逆行、丟包檢測等,一些簡單的影像分析功能;NVR SoC 晶片主要用於影像數據的分析與儲存,功能相對單一,但由於多與 IP Cam 聯合使用,市場成長也較快。
通常情況下,安控影像監控類比攝影機的核心零件,包括一顆圖像感測器和一顆 ISP 晶片,安控網路攝影機的核心零件,包括一顆圖像感測器,和一顆 IP Cam SoC 晶片。
單從中國的影像監控市場來看,未來中國影像監控行業增速,仍將保持 12%-15% 左右的水平增成長,其中網路監控設備成長更為迅速,相關晶片產品需求十分旺盛。
安控 AI
晶片市場上,除了傳統晶片以及安控廠商,還有大量的新創公司在湧入。國際晶片廠商主要有英偉達、英特爾、安霸、TI、索尼、特威、三星、谷歌等;中國廠商主要有海思(華為)、國科微、中星微、北京君正、富瀚微、景嘉微、寒武紀、深鑒科技、雲天勵飛、中科曙光等。
英偉達、英特爾等公司,憑借著通用處理器,以及物聯網解決方案的優勢,長期與安控巨頭如博世、海康、大華、等保持緊密聯繫;對岸中國寒武紀、地平線、雲天勵飛等廠商,都有 AI 晶片產品問世,海思本身就有監控攝影機 SoC 晶片,在新加入 AI 模組之後,競爭力進一步提升。
從安控行業發展的趨勢來看,隨著 5G 和物聯網的快速落地,「雲邊結合」將是行業最大的趨勢,雲端晶片中國的企業,預計很難有所突破,但是邊緣側,尤其是影像處理相關
AI 晶片,還是有較大潛力,國產化替代將加速。
但也看到,AI 晶片離在安控領域實現大規模快速落地仍有距離。除了功耗和算力約束外,工程化難度大,也是困擾行業的重要因素,尤其是在安控這種產業鏈,長而高度碎片化的產業,新技術落地需要長時間的累積與磨合,以及人力資源的不斷投入。
5、智慧家庭
智慧家庭近年來也成為人工智慧重要的落地場景。從技術應用上講,人類 90% 的資訊輸出,是透過語音,80% 的是透過視覺,智慧家庭居領域應用最多的,就是智慧語音交互技術。
近年來,正是看到語音交互技術,與智慧家庭深度融合的潛力,谷歌、蘋果、微軟均將其作為進入智慧家庭領域的重要切入口,發佈了多款軟硬體平台,如亞馬遜推出的智慧音箱設備。中國智慧語音龍頭科大訊飛,較早就切入了該領域,聯合地產商推出了硬體平台魔飛(MORFEI)平台,電視、咖啡機、電燈、空調、熱水器等產品,都能透過融入相關平台,實現智慧化。
當前,無論是智慧音箱,還是其他智慧家庭設備,智慧功能都是在雲端來實現,但雲端存在著語音交互時延的問題,對網路的需求限制了設備的使用空間,而且由此還帶來了數據與隱私危機。為了讓設備使用場景不受局限,使用者體驗更好,端側智慧已成為一種趨勢,語音 AI 晶片也隨之切入端側市場。
中國主要語音技術公司,憑借自身在語音辨識、自然語言處理、語音交互設計等技術上的累積,開始轉型做 AI 語音晶片整合,及提供語音交互解決方案,包括雲知聲、出門問問、思必馳以及 Rokid。
市場上主流的 AI
語音晶片,一般都內置了為語音辨識,而優化的深度神經網路加速方案,以實現語音離線辨識。隨著算法的精進,部分廠商的語音辨識能力,得到了較快提升,尤其是在遠場辨識、語音分析和語義理解等方面,都取得了重要進展。
雲知聲在
2018 年 5 月,推出語音 AI 晶片雨燕,並在研發多模態晶片,以適應物聯網場景,目前這家公司晶片產品,已經廣泛用於智慧家電,如空調之中;出門問問也在 2018 年推出了 AI 語音晶片模組「問芯」MobvoiA1;Rokid 也發在 2018 年發佈了 AI 語音晶片 KAMINO18;思必馳利用其聲紋辨識等技術優勢,2019 年初推出基於雙 DSP 架構的語音處理專用晶片
TH1520,具有完整語音交互功能,能實現語音處理、語音辨識、語音播報等功能。
由於語音晶片市場過於細碎,需要企業根據場景和商業模式需要,設計出晶片產品,這對傳統的通用晶片廠商的商業模式是一種顛覆,以致於在 2018 年以前,都很少有晶片巨頭進入該領域,這也給了中國語音晶片廠商,較大的施展空間。
而對算法公司來說,透過進入晶片市場,進而透過解決方案,直接針對客戶和應用場景,透過實戰數據來訓練和優化算法。
6、機器人
機器人是人工智慧行業最早的落地形態,也是現在和將來重要的應用方向。機器人主要包括兩類 —— 製造環境下的工業機器人,和非製造環境下的服務機器人。工業機器人主要是針對工業領域的多關節機械手,或多自由度機器人。服務機器人則是除工業機器人之外的、用於非製造業,並服務於人類的各種先進機器人。
隨著雲端、物聯網、行動通信、大數據、人工智慧等資訊,及智慧化技術的發展,機器人在某些領域的工作效率高於人類,並在工業和服務場景中,得到了大量應用。
據國際機器人聯盟統計,2017 年,全球工業機器人產量達到 38.1 萬台,同比成長 30%,預計 2018 - 2021 年全球工業機器人產量,將保持 10% 以上增速成長,2021 年產量預計將達到 63.0 萬台。
中國是全球最大的工業機器人生產國,2017 年產量達到 13.79 萬台,同比大幅成長 60%。服務機器人主要用於物流、防務、公共服務、醫療等領域,雖然規模不大,但是成長迅速。
2017 年全球產量為 10.95 萬台,同比大幅成長 85%。預計 2018 年全球專業服務機器人,產量將達到 16.53 萬台,同比成長 32%,2019-2021 年平均增速,將保持在 21% 左右。
機器人尤其是中國產業規模的快速擴大,將大幅帶動對岸機器人相關智慧晶片產業的發展。機器人由控制、感測、驅動和電源四大裝置構成,其中控制裝置是機器人的「大腦」,核心是 AI 晶片。
機器人晶片需要具備強大的數據計算、自主判斷思考和執行能力,國際廠商如高通、英特爾、英偉達,都在積極部署該領域,中國企業目前處於追趕狀態,相關企業包括瑞芯微、珠海全志、炬力等。
三、AI 晶片行業產業鏈及商業模式
半導體行業產業鏈長,具有資本和技術壁壘雙高的行業特點,半導體行業產業鏈從上游到下游大體可分為:設計軟體(EDA)、設備、材料(晶圓及耗材)、IC 設計、代工、封裝等。
Fabless 與 IDM 廠商負責晶片設計工作,其中 IDM 廠商是指整合了設計、製造、封裝、銷售等全流程的廠商,一般是一些科技巨頭公司,Fabless 廠商相比 IDM 規模更小,一般只負責晶片設計工作。
分工模式(Fabless-Foundry)的出現,主要是由於晶片製程技術的不斷發展,工藝研發費用及產線投資升級費用大幅上升,導致一般晶片廠商難以覆蓋成本,而
Foundry 廠商則,是統一對 Fabless 和 IDM 的委外訂單進行流片,形成規模化生產優勢,保證盈利的同時,不斷投資研發新的製程技術,是摩爾定律的主要推動者。
當前在半導體產業鏈中,中國在上游軟體、設備、高端原材料,以及代工製造,與全球一線廠商差距較大,而在封裝環節擁有長電、華天、通富微等行業前十企業,今年來在 IC 設計領域,也逐漸湧現了以海思為代表的一批公司。
半導體行業商業模式主要可分為: IP 授權與流片生產模式
行業主要存在兩種商業模式,IP 授權和流片模式。其中在 IP 授權模式中,IP 設計公司將自己設計的晶片功能單元,如:CPU、GPU、DSP、NPU 等,授權給其他的 IC 設計公司,如華為海思麒麟 970、980 晶片獲得了寒武紀 NPU 的 IP 授權。
被授權方將會向授權方支付一筆授權費來獲得 IP,並在最終晶片產品銷售中,以晶片最終售價的 1%~3% 向授權方支付版稅。授權費用實現 IP 開發成本的覆蓋,而版稅作為 IP 設計公司的盈利。
但正如手機晶片市場,優質的 IP 資源往往集中在科技巨頭手中,擁有單一或少量 IP 的新創公司,往往因為自身 IP 競爭力不足、或是難以提供具有綜合競爭力的完整解決方案,而最終落得被收購或退出市場的境地。
流片生產模式雖然前期投入較大,但一款成功的產品將會使公司獲得豐厚的利潤,一般晶片產品定價採取 8:20 原則,即硬體成本:最終產品售價 = 8:20。
該比率可能會隨廠商對市場話語權不同,而上下波動,因此一款成功的晶片銷售毛利應在 60% 以上。但公司是否能夠最終實現盈利,還需要在毛利中,進一步扣除前期研發費用。
晶片設計需要廠商承擔昂貴的 EDA 費用及高昂的人力成本
晶片整體設計製造流程大體包括:
1) IC 設計公司進行晶片架構設計,
2)將設計完成的晶片「圖紙」文件交由 Foundry 廠商進行流片,
3)裸片將會交由 OSAT 廠商進行封裝,
4)產品銷售。研發費用主要包括:研發團隊人力成本、EDA 軟體,及 IP 授權費用,及其他場地租金、水電費用等。
其中,人力成本佔研發成本主要部分,項目開發效率與資深工程師數量正相關,中國資深晶片設計工程師年薪,一般在 RMB 50~100 萬元之間。
EDA 工具是晶片設計工具,是發展超大型集成電路的基石,EDA 工具可有效提升產品良率。目前,該領域被國際廠商高度壟斷,CR3 大於 70%。
EDA 廠商主要是透過向 IC 設計公司,進行軟體授權獲取盈利,根據調研,20 人的研發團隊設計一款,晶片所需要的 EDA 工具,採購費用在 100 萬美元/年左右(包括 EDA 和 LPDDR 等 IP 購買成本)。
英偉達開發 Xavier,動用了 2000 個工程師,開發費用共計 20 以美金,Xlinix ACAP 動用了 1500 個工程師,開發費用總共 10 億美金。
晶片設計技術累積 + 市場洞察力 = 晶片產品市場推廣成功與否在 IP 授權和流片生產兩大類商業模式中,IP 授權由於不涉及晶片製造,僅需要考慮研發費用,資金佔用相對小、風險較低。
流片除前期的研發投入以外,還需要向代工廠支付巨額的代工費用,對資金佔用極大,需要晶片銷售達到一定量級,才能分攤掉前期巨額投入實現盈利,若期間出現流片失敗(即流片未達設計期望性能指標),或者市場推廣失利等情況,晶片設計廠商需要承擔前期巨額的研發和製造投入、費用損失。
晶片單位硬體成本主要包含掩膜、封裝、測試和晶圓成本,並受到製程工藝、產量、晶片面積等多因素的影響。
我們簡要測算 16nm 製程工藝下,不同產量不同面積的晶片單位成本,可以看出晶片單位硬體成本,隨晶片面積、產量上升逐漸下降。
因此,一款晶片能否獲得廣大的市場認可,並擁有較長的產品生命週期,實現晶片產品的規模銷售和生產,顯著決定了企業的盈虧情況。
四、全球 AI 晶片公司融資概況
從 2012 年開始,英偉達將其 GPU 產品,應用於 AI 並行運算應用中,人們意識到了 AI 晶片的巨大潛力,傳統半導體行業巨頭、科技巨頭和眾多創業團隊,紛紛加入到該領域的產品研發中來。中國創業公司多成立於 15 年以後,從 2017 年開始大量的 AI 運算晶片產品,陸續發佈,產品逐步開始實現落地。
傳統的半導體巨頭和科技巨頭,也在佈局 AI 晶片領域,除自主研發以外,基於資金優勢透過對外投資收購優質資產,及創業團隊等手段加速自身的 AI 晶片業務發展,典型代表如 Intel,大手筆收購了包括 Altera、Nervana、Movidius ,以及 Mobileye 在內的多家 AI 晶片企業,阿里巴巴也透過先後投資、收購佈局 AI 晶片的開發。
中國大量的 AI 晶片新創公司,都是在 2015-2017 年成立,2018 年新增企業數量減少。資本方面,受到宏觀經濟影響,雖然行業內投融資事件相比, 2017 年同比成長了 32%,但行業整體投融資金額驟減,但巨頭企業在 2018 年依然持續獲得投資人青睞,多家企業創造了估值新高。
五、全球 AI 晶片廠商概覽
1、整體排名
近年來,各類勢力均在發力 AI 晶片,參與者包括傳統晶片設計、IT 廠商、技術公司、網路以及新創企業等,產品覆蓋了 CPU、GPU、FPGA 、ASIC 等。
在市場調研機構 Compass Intelligence 2018 年發佈的 AI Chipset Index TOP24 榜單中,前十依然是歐美韓日企業,台灣聯發科、中國晶片企業如華為海思、Imagination (2017 年被中國資本收購)、寒武紀、地平線機器人等企業進入該榜單,其中華為海思排 12 位,寒武紀排 23 位,地平線機器人排 24 位。
2、晶片企業
晶片設計企業依然是當前 AI 晶片市場的主要力量,包括英偉達、英特爾、AMD、高通、三星、恩智浦、博通、華為海思、聯發科、Marvell (美滿)、賽靈思等,另外,還包括不直接參與晶片設計,只做晶片 IP 授權的 ARM 公司。其中,英偉達、英特爾競爭力最為強勁。
英偉達: AI 晶片市場的領導者,計算加速平台廣泛用於數據中心、自動駕駛等場景
英偉達創立於 1993 年,最初的主業為顯卡和主板晶片組。其主板晶片組主要客戶,以前是 AMD,但是在 AMD 收購 ATI 推出自研晶片組之後,英偉達在該領域的優勢就蕩然無存。於是,公司全面轉向到 GPU 技術研發,同時進入人工智慧領域。2012 年,公司神經網路技術在其 GPU 產品的支持下取得重大進展,並在電腦視覺、語音辨識、自然語言處理等方面,得到廣泛應用。
2016 年,全球人工智慧發展加速,英偉達迅速推出了第一個,專為深度學習優化的 Pascal GPU。2017 年,英偉達又推出了性能相比 Pascal 提升 5 倍的新 GPU 架構 Volta,同時推出神經網路推理加速器 TensorRT 3。
至此,英偉達完成了算力、AI 建構平台的部署,也理所當然成為這一波人工智慧熱潮的最大受益者和領導者。英偉達公司的策略方向,包括人工智慧和自動駕駛。
人工智慧方面,英偉達面向人工智慧的產品有兩類,Tesla 系列 GPU 晶片,以及 DGX 訓練伺服器。
Tesla 系列是專門針對 AI 深度學習算法,加速設計 GPU 晶片,DGX 則主要是面向 AI 研究開發人員設計的工作站或者超算系統。2018 年,公司包含這兩款產品的數據中心業務收入,大幅成長 52%,其中 Tesla V100 的強勁銷售,是其收入的主要來源。
自動駕駛方面。英偉達針對自動駕駛等場景,推出了 Tegra 處理器,並提供了自動駕駛相關的工具包。2018 年,基於 Tegra 處理器,英偉達推出了 NVIDIA DRIVE AutoPilot Level 2+,並贏得了豐田、戴姆勒等車企的自動駕駛訂單。同時,2018 年,公司也正在積極推動 Xavier 自動駕駛晶片的量產。
值得關注的是,英偉達還正在透過投資和併購方式,繼續加強在超算或者數據中心方面的業務能力。
2019 年 3 月,英偉達宣稱將斥資 69 億美元收購 Mellanox。Mellanox 是超算互聯技術的早期研發和參與者。透過與 Mellanox 的結合,英偉達將具備優化數據中心網路負載的能力,其 GPU 加速解決方案,在超算或者數據中心領域的競爭力,也將得到顯著提升。
英特爾加速向數位公司轉型,透過併購 + 生態優勢發力人工智慧
英特爾作為傳統的 CPU 設計製造企業,在傳統 PC、伺服器市場有著絕對的統治力。隨著互聯網時代的到來,以及個人電腦市場的飽和,該公司也在開始加快向數位公司轉型。尤其在人工智能興起之後,英特爾憑借著技術和生態優勢,打造算力平台,形成全棧式解決方案。
英特爾主要產品為 CPU、FPGA ,以及相關的晶片模組。雖然 CPU 產品在訓練端的應用效率不及英偉達,但推理端優勢較為明顯。英特爾認為,未來 AI 工作週期中,推理的時長將是訓練時長的 5 倍甚至 10 倍,推理端的晶片需求也會放量。同時,即使是雲端訓練,GPU 也需要同 CPU 進行異構。
目前,英特爾在人工智慧晶片領域主要透過三條路徑:
1)透過併購,快速累積人工智慧晶片相關的技術和人才,並迅速完成整合。英特爾在收購了 Altera後,還先後收購了 Nervana、Movidius 與 Mobileye 等新創企業。
在完成上述一系列併購之後,英特爾設立了 AI 事業群,整合了 Xeon、Xeon Phi、Nervana、Altera、Movidius 等業務和產品,同時將原有的自動駕駛業務板塊併入 Mobileye。
2)建立多元的產品線。目前,英特爾正建構滿足高性能、低功耗、低延遲等差異化晶片解決方案,除了 Xeon 外,包括可支持雲端服務 Azure 的 Movidius VPU 與 FPGA。
3)透過計算平台等產品,提供強大的整合能力,優化 AI 運算系統的負載,提供整體解決方案。
在英特爾收購的這些企業中,除了前面已經提到的 Altera、Mobileye 之外,Nervana 也非常值得關注。2016 年 8 月,英特爾斥資超過 3.5 億美元,收購這家員工人數不超過 50 人的新創公司,但是經過不到三年的成長,這家公司已經成為英特爾 AI 事業部的主體。
依託 Nervana,英特爾成功在 2017 年 10 月,推出了專門針對機器學習的神經網路系列晶片,目前該晶片已經升級至第二代,預計 2019 年下半年將正式量產上市,該晶片在雲端上,預計能和英偉達的 GPU 產品一較高下。
3、IT 及互聯網企業
AI 興起之後,互聯網及 IT 企業憑借著在各大應用場景上,技術和生態累積,也在積極拓展 AI 相關市場,其中 AI 晶片是部署重點之一。
相較而言,互聯網企業憑借著數據和場景先天優勢,在 AI 算法和晶片領域優勢更為明顯,如美國谷歌、中國的 BAT。IT 企業如 IBM,在人工智慧領域較早開始研究,2018 年年中,曾經推出專門針對深度學習算法的原型晶片。
谷歌: TPU 晶片已經實現從雲到端,物聯網 TPU Edge 是當前佈局重點
谷歌可謂是 AI 晶片行業的一匹黑馬,但是競爭力強勁。谷歌擁有大規模的數據中心,起初同其他廠商的數據中心一樣,都採用 CPU + GPU 等異構架構,進行計算加速,用來完成圖像 辨識、語音搜索等運算服務。
但是,隨著業務量的快速成長,傳統的異構模式,也很難支撐龐大的算力需求,需要探索新的高效計算架構。同時,谷歌也需要透過研發晶片,來拓展 AI 平台 TensorFlow 的生態。因此,2016 年,Google 正式發佈了 TPU 晶片。
從谷歌 TPU 的本質來看,它是一款 ASIC (訂製晶片),針對 TensorFlow 進行了特殊優化,因此該產品在其他平台上無法使用。第一代 Cloud TPU 僅用於自家雲端機房,且已對多種 Google 官方雲端服務帶來加速效果,例如 Google 街景圖服務的文字處理、Google 相簿的照片分析、甚至 Google 搜尋引擎服務等。Cloud TPU 也在快速改版,2017 年推出第二代,2018 年推出第三代晶片 TPU 3.0。
同時,谷歌對 TPU 的態度也更為開放,之前主要是自用,目前也在對用戶開放租賃業務,但沒有提供給系統商。
除了雲端,谷歌針對邊緣端推理需求快速成長的趨勢,也在開發邊緣 TPU 晶片。
2017 年 11 月,Google 推出輕量版的 TensorFlow Lite (某種程度取代此前的 TensorFlow Mobile),使得能耗有限的行動設備,也能支持 TensorFlow,2018 年推出的 Edge TPU 晶片,即是以執行 TensorFlow Lite 為主,而非 TensorFlow。
Edge TPU 性能雖然遠不如 TPU,但功耗及體積大幅縮小,適合物聯網設備採用。
Edge TPU 可以自己運行計算,不需要與多台強大電腦相連,可在感測器或 Gateway 設備中,與標準晶片或微控制器共同處理 AI 工作。
按照谷歌的規劃,Edge TPU 將提供給系統商,開放程度將進一步提升。如果 Edge TPU 推廣順利,支持的系統夥伴將進一步增多,谷歌將盡快推出下一代
Edge TPU 產品。即使推廣不順利,Google 也可能自行推出 Edge Gateway 、Edge 設備等產品。
阿里巴巴: 推出自研神經網路處理晶片,同時加速對 AI 企業投資佈局
阿里巴巴作為對岸中國內AI 領域的領軍企業,在底層算力、算法技術,以及應用平台方面,都有較強累積。同 Google 類似原因,阿里巴巴也在近年來開始開發 AI 晶片,同時加大對相關領域的投資佈局。
2017 年,阿里巴巴成立阿里達摩院,研究領域之一就是 AI 晶片技術。2018 年 4 月,阿里達摩院對外宣佈正研發一款 Ali-NPU 神經網路晶片,預計將在 2019 年下半年問世。這款晶片將主要應用於圖像影像分析、機器學習等 AI 推理計算。
阿里巴巴在自研 AI 晶片之前,主要在透過投資的方式,佈局 AI 晶片領域。目前,寒武紀、深鑒科技、杭州中天微等,都有阿里巴巴的入股,其中 2016 年 1 月份還成為了 AI 晶片設計公司,杭州中天微的第一大股東。
百度: 透過自行研發、合作以及投資等多種方式,佈局 AI 晶片
百度作為搜索企業,其對 AI 晶片的需求更為明確。早在 2011 年,百度就在 FPGA 和 GPU 進行了大規模部署,也開始在 FPGA 的基礎上研發 AI 加速器,來滿足深度學習運算的需要。此後,百度就不斷透過合作、投資和自研的方式來推進該業務。
1)加強同晶片設計及 IP 企業合作。2017 年 3 月,百度發佈了 DuerOS 智慧晶片,並與紫光展銳、ARM、上海漢楓達成策略合作。這款晶片搭載了對話式,人工智慧操作系統,可以賦予設備可對話的能力,能廣泛用於智慧玩具、藍牙音箱、智慧家庭等多種設備。
2017 年 8 月,百度又與賽思靈(Xilinx)發佈了 XPU,這是一款 256 核、基於 FPGA 的雲端運算加速晶片。同在 2017 年,百度同華為達成合作,推動終端 AI 晶片的落地。
2)參與 AI 晶片企業投資。2018 年 2 月 5 日,美國新創公司 Lightelligence 宣佈獲得了 1000 萬美元種子輪融資,由百度風投和美國半導體高管財團領投。Lightelligence 主要利用基於光學的新技術,來加速人工智慧的工作負載,透過光子電路的新興技術,來加速吃資訊處理。
3)自行研發晶片也正在加速部署。2018 年 7 月,百度正式發佈了自研的 AI 晶片「崑崙」,這是當時中國第一款雲端全功能 AI 晶片,其中包含訓練晶片崑崙 818-300,推理晶片崑崙 818-100。崑崙 AI 晶片是基於百度 CPU、GPU、FPGA 的 AI 加速器研發,能夠在 100W 左右的功耗下,提供高達 260 萬億次/秒的運算速度,算力處於業界領先水準。
4、新創企業
寒武紀: 同時發力終端和雲端晶片,技術綜合實力較強
寒武紀發源於對岸中國的中科院,由陳天石、陳雲霽兄弟聯合創辦,團隊成員主要人員構成也來自於中科院,其中還有部分參與龍芯項目的成員。
2018 年 6 月公司,公司獲得數億美元投資,此輪融資之後,寒武紀科技估值從上年的 10 億美金,大幅上升至 25 億美元。該公司是目前中國為數不多的,同時具備雲端和終端 AI 晶片設計能力的企業。
公司最早發力的是終端晶片,主要為 1A 系列,包括 1A、1H8 和 1H16,公司透過 IP授權的模式賦能終端,或者晶片設計企業,目前主要合作夥伴包括華為,其中麒麟 970 就採用其 1A 處理器。
另外,公司還推出了面向低功耗場景視覺應用的寒武紀1H8,高性能且擁有廣泛通用性的寒武紀 1H16,以及用於終端人工智慧產品的寒武紀 1M。2018 年 9 月,華為發佈的麒麟 980
依然整合了優化版的寒武紀 1H 新一代智慧處理器。
公司雲端晶片也取得較大突破。雲端晶片一直是英特爾、英偉達等公司的領地,中國企業很難進入。2018 年 5 月,寒武紀推出算力達到 128Tops 的 MLU 100 雲端智慧晶片,可用於訓練和推理。MLU100 相比傳統的 GPU 和 CPU 晶片,MLU 晶片擁有顯著的性能功耗比,和性能價格比優勢,適用範圍覆蓋了圖像辨識、安全監控、智慧駕駛等多個重點應用領域。
2019 年 6 月 20 日,寒武紀正式推出了第二代雲端 AI 晶片——思元 270 (MLU270)及板卡產品。思元 270 採用的是寒武紀自主研發的 MLUv02 指令集,可支持視覺、語音、自然語言處理,以及傳統機器學習等高度多樣化的人工智慧應用,更為視覺應用整合了充裕的影像,和圖像編解碼硬體單元。
具體性能指標方面,思元 270晶片處理非稀疏深度學習模型的理論,峰值性能提升至上一代 MLU100 的 4 倍,達到了 128TOPS (INT8);同時在定點訓練領域,取得關鍵性突破,相容 INT4 和 INT16 運算,理論峰值分別達到 256TOPS 和 64TOPS;支持浮點運算和混合精度運算。
綜合來看,公司在 AI 晶片方面競爭力較強。公司擁有自己的處理器架構和指令集,而且透過硬體神經元虛擬化、開發通用指令集、運用稀疏化處理器架構,解決了 ASIC 用於深度學習時,存在的雲端算力的挑戰、能效瓶頸、手機端和雲端,超大規模計算場景應用問題。
地平線機器人: 這家公司 AI 晶片和運算平台,在嵌入式及智慧駕駛領域具備優勢
地平線成立於 2015 年,主要從事邊緣人工智慧晶片和運算平台業務,場景聚焦於智慧駕駛和 AIoT 邊緣運算。2018 年起,公司逐漸實現產品化落地。2019 年 2 月,該公司官方宣佈,已獲得 6 億美元 B 輪融資,SK 中國、SK Hynix 以及數家中國一線汽車集團(與旗下基金)聯合領投。B 輪融資後,地平線估值達 30 億美元。
2017 年 12 月,地平線發佈中國首款的嵌入式,人工智慧視覺晶片征程(Journey)系列,和旭日(Sunrise)系列。旭日 1.0 處理器面向智慧攝影機等應用場景,具備在前端實現大規模人臉檢測跟蹤、影像結構化的處理能力,可廣泛用於智慧城市、智慧零售等場景。征程 1.0
處理器面向智慧駕駛,具備同時對行人、機動車、非機動車、車道線、交通標誌牌、紅綠燈等多類目標,進行精準的即時檢測與辨識的處理能力,同時滿足車載嚴苛的環境要求,以及不同環境下的視覺感知需求,可用於高性能 L2 級別的高級駕駛輔助系統 ADAS 。
2018 年 2 月,地平線自主研發的高清智慧人臉辨識網路攝影機,搭載地平線旭日人工智慧晶片,提供基於深度學習算法的人臉拍攝、特徵抽取、人臉特徵值比對等功能。可以在攝影機端實現人臉庫最大規模為 5 萬的高性能人臉辨識功能,適用於智慧城市、智慧零售等多種行業。
2018 年 4 月,公司發佈地平線 Matrix1.0 自動駕駛計算平台。目前已經更新到,性能更強的升級版本,地平線 Matrix 自動駕駛計算平台,結合深度學習感知技術,具備強大的感知計算能力,能夠為 L3 和 L4 級別自動駕駛,提供高性能的感知系統。地平線 Matrix 自動駕駛計算平台,已向世界頂級 Robotaxi 廠商大規模供貨。
比特大陸: 區塊鏈礦機霸主進軍 AI 領域
比特大陸是全球領先的算力晶片設計企業,其致力於開發高性能、低功耗、全訂製的算力晶片,是全球少數幾家掌握最先進 7nm 製程設計能力,並可規模量產 7nm 晶片的公司之一。
目前,比特大陸的產品主要應用於,區塊鏈和人工智慧兩個領域,區塊鏈礦機的市場佔有率高達 74.5%。2017 年,比特大陸正式發佈了,針對人工智慧領域的子品牌——「算豐」,並推出了針對深度學習推理的第一代雲端 AI 晶片 BM1680。
2018 年 3 月,比特大陸快速推出了第二代雲端人工智慧晶片 BM1682,2018 年 9 月份推出了面向終端的 AI 晶片產品 BM1880,並計劃於 2019 年推出其第三代雲端 AI 晶片 BM1684。
此外,比特大陸基於其晶片,在雲端還研發了加速卡、伺服器等產品,在終端推出了計算棒、模組、開發板等產品,為不同行業的客戶,提供適應多種應用場景的產品。
在項目落地方面,比特大陸基於雲端 AI 晶片的人臉閘機,助力福建 618 展會與廈門 98 投洽會成功舉辦,累計通行超過 30 萬人次,通道表現穩定可靠,狀況良好。在第二屆數字中國峰會安保系統中,搭載比特大陸自研晶片的算豐人工智慧服務器,與海康威視人臉辨識算法相融合,全程應用於峰會安全保障工作,3D 人臉軌跡系統為日均 6 萬餘人次、累計 150 餘萬張人臉圖片的海量分析,提供算力支持。
在合作方面,比特大陸與福建當地企業合資,成立福建省算域大數據科技有限公司,負責福州城市大腦的投資、建設與運營,為日後福州 AI 產業發展建設好基礎設施。比特大陸還作為首批企業加入海淀城市大腦科技產業聯盟,助力海淀「城市大腦」建設,後還與海淀區簽署了圍繞「智慧處理晶片應用場景建設」的重大項目合作意向書,推動算力晶片應用落地。此外,公司還與東亞最大的遊戲雲平台優必達(Ubitus )合作,共同建設公司位於日本、台灣的機房,基於「算豐」晶片,公司協助 Ubitus 共同開發電腦視覺相關的 AI 功能。
嘉楠科技: 轉型 AI 晶片廠商
作為僅次於比特大陸的全球第二大比特幣礦機廠商,近幾年以來,嘉楠科技也開始積極轉型 AI 晶片廠商,目前已掌握集 AI 晶片研發、AI 算法、結構、SoC 整合及流程,實現一體化等綜合技術,以 AI 晶片為核心建立 AI 生態鏈,以生態夥伴需求為依歸,為生態夥伴提供一攬子 AI 服務方案。
嘉楠科技於 2013 年,發佈了首款基於 ASIC 晶片的區塊鏈計算設備,引領行業進入 ASIC 時代。2015 年,嘉楠科技獲清華長三角研究院投資,並作為重點項目被引進至科技重鎮杭州。同年,嘉楠科技成功實現 28nm 製程工藝晶片的量產,邁出了 AI 晶片量產的第一步。
嘉楠科技在 2016 年實現了 16nm 晶片量產,一舉通過中國的國家高新技術企業認定。並於 2017 年被正式評定為杭州市高科技獨角獸企業。2018 年,嘉楠科技連獲兩項重大技術突破,實現量產首個基於自研的 7nm 晶片,以及量產其首款基於 RISC-V ,自研商用邊緣智慧運算晶片。
2018 年 9 月,嘉楠科技推出了第一代邊緣側 AI 晶片勘智 K210,透過完全自主研發的神經網路加速器 IP,同時具備機器視覺和語音辨識能力,可以在超低功耗下,進行高速卷積神經網路運算。隨後勘智 K210 很快在無感門禁、智慧門鎖、病蟲害防治等領域得到應用。
在項目落地方面,嘉楠科技提供的無感門禁系統,已經得到了軟通動力總部大樓(共有集團員工 5 萬人)的採用,目前已實現每個監控點,日均 2000 次的辨識數量。
嘉楠科技提供的智慧電表解決方案,也被中國最大的社區 —— 貴陽南明花果園社區採用,實現了對社區 10 萬多個傳統電氣表的智慧化升級改造,解決傳統人工入戶抄表模式的「高成本、低效率、難入戶」等問題。
在治理林業病蟲害的業務場景中,嘉楠與百度、林業大學合作,將搭載 8 通道高性能麥克風陣列的音頻處理硬體插入樹中,以蟲子嗑咬樹植的聲音為音源,判斷害蟲的位置。
同時,還可利用 K210 晶片的視覺能力,將晶片置入 40 mm 見方的智慧盒子,透過圖像分類和檢測的方法,判斷視野內是否有害蟲存在。
這種視聽綜合判斷的方法,有效提升了判斷的效率與精度,在林業、農田都有廣泛的應用場景。同時,該智慧盒子不需要外接供電設備,只需要電池供電即可,相比傳統的設備更為輕量化,使用成本更低廉。
在生態合作方面,2019 年 5 月 29 日,嘉楠聯合百度大腦發佈 PaddlePi-K210。該產品作為一款 AI 開發板,尺寸僅為 3
X3cm,相當於一個火柴盒大小,具有 1Tops 的澎湃算力,同時兼具 300 mw 的極低功耗,即使加上攝影機和螢幕,也只有 1w 的功耗,充分適配邊緣側設備,對於極低功耗的業務場景需求。同時,該產品打通 Paddle Paddle 模型設備端部署解決方案。
開發者不需要硬體更改,使用公版模具,就可以一直支持用戶做到產品小樣階段,對開發者十分友好。2018 年 9 月 21 日,嘉楠科技還與天津市西青區人工智慧產業基地,簽約 AI 項目。此次人工智慧產業集中籤約重點項目有平台類、晶片設計、軟體研發類、應用類。涉及智慧網聯車、智慧醫療、智慧城市、智慧製造多個人工智慧領域。
AKD 寰楚專業級全系列監控設備 |
0 comments:
張貼留言