技術(shù)路徑:通用與定制的平衡
在AI芯片的發(fā)展過程中,通用性和定制化像是兩個(gè)互相拉扯的作用力,衍生出一系列的芯片架構(gòu)。其中,GPU和ASIC分別是通用性和定制化的代表架構(gòu),也有著各自的優(yōu)勢和局限。
“GPU架構(gòu)提供了大量數(shù)據(jù)并行結(jié)構(gòu),因此能夠提供大量的AI并行計(jì)算,適用于AI訓(xùn)練等。ASIC等定制化AI芯片針對特定的應(yīng)用場景進(jìn)行芯片優(yōu)化,能夠取得更高的計(jì)算能效,但通用性相對較弱。”賈天宇表示。
好在,隨著芯片技術(shù)的發(fā)展,通用性與定制化已不再壁壘森嚴(yán)。一方面,英偉達(dá)在GPU架構(gòu)中引入了Tensor Core(張量計(jì)算核心),一種專門針對深度學(xué)習(xí)應(yīng)用而設(shè)計(jì)的專用ASIC單元,使GPU更加適合深度學(xué)習(xí)。與此同時(shí),定制化芯片也逐步增加了通用計(jì)算單元,并引入可編程或部分可編程的架構(gòu),增強(qiáng)芯片的場景覆蓋能力。
“過去被認(rèn)為只具備專用性的ASIC或DSA(領(lǐng)域?qū)S眉軜?gòu)),現(xiàn)在不僅含有用于AI加速計(jì)算的專用單元,還含有與英偉達(dá)GPU中CUDA Core類似的通用計(jì)算單元,同樣可以實(shí)現(xiàn)對各種指令的處理。因此,無論是GPU、ASIC或DSA架構(gòu),云端AI芯片企業(yè)在架構(gòu)設(shè)計(jì)中需要關(guān)注的是通用和專用計(jì)算單元的搭配,以便應(yīng)對AI計(jì)算持續(xù)演變帶來的挑戰(zhàn)。”昆侖芯科技向記者表示。
“鑒于大模型對于大算力的顯著需求,以及模型訓(xùn)練算子的多樣性,具有大算力、通用性的芯片將是大算力應(yīng)用的首選。在現(xiàn)存的技術(shù)方案中,GPU是能夠提供算力和開發(fā)生態(tài)的選擇。然而,由于GPU的功耗過高,類GPU架構(gòu)的定制化大算力AI芯片也將存在市場,滿足對于芯片計(jì)算能效的提升需求?!辟Z天宇指出。
而通用與定制的“配比”,要根據(jù)具體場景設(shè)計(jì)。昆侖芯科技表示,在通用性、易用性和性能之間實(shí)現(xiàn)平衡,需要在實(shí)際設(shè)計(jì)中結(jié)合需求。除了單一技術(shù)或者算力指標(biāo),更要注重產(chǎn)品的綜合競爭力是否均衡。百度的AI應(yīng)用場景,為昆侖芯提供了驗(yàn)證和調(diào)優(yōu)機(jī)會(huì)。就大模型而言,昆侖芯在產(chǎn)品定義上已經(jīng)做了布局,昆侖芯2代AI芯片相較昆侖芯第1代產(chǎn)品大幅優(yōu)化了算力、互聯(lián)和性能,在百度內(nèi)外部的大模型場景中都有落地,昆侖芯在研的下一代產(chǎn)品將為大模型和AIGC等應(yīng)用提供更佳的性能體驗(yàn)。
“硬件和場景是雙輪驅(qū)動(dòng)的,場景催生新的技術(shù)方案,新的技術(shù)促使場景更好發(fā)展。大模型作為一個(gè)趨勢場景,其需求定義清楚了,設(shè)計(jì)和實(shí)現(xiàn)技術(shù)就會(huì)水到渠成?!崩鲂究萍几嬖V記者。
另外,無論是通用芯片還是定制芯片,抑或是通用、專用計(jì)算單元兼而有之,設(shè)計(jì)環(huán)節(jié)之后的制造、封裝環(huán)節(jié),也將作用于AI芯片的性能提升。
“無論GPU還是定制化AI芯片路線,Chiplet、3D堆疊等先進(jìn)集成與封裝技術(shù)將成為進(jìn)一步提升大模型計(jì)算能力的重要技術(shù)手段,也將在未來AI芯片發(fā)展中起到重要作用?!?/p>