今年,瘦身成功的亞馬遜云科技高級(jí)副總裁Peter DeSantis,用生成式AI親手創(chuàng)作了幾張re:Invent《周一晚間直播》的配圖,來可視化他的演講。
這也為整場(chǎng)活動(dòng)定下了基調(diào),其實(shí)亞馬遜云科技在底層創(chuàng)新上一直有著悠久的歷史,從芯片設(shè)計(jì)到計(jì)算架構(gòu),再到AI加速,每一步都在推動(dòng)技術(shù)邊界的發(fā)展。
自研芯片的技術(shù)版圖
亞馬遜云科技已經(jīng)擁有超過十年“自研芯片”的歷程,已推出的四大自研芯片產(chǎn)品組合包括:六代Nitro系統(tǒng)、四代Graviton、兩代Trainium和Inferentia。
亞馬遜云科技在2018年re:Invent大會(huì)上發(fā)布了基于ARM架構(gòu)的第一代Amazon Graviton。此后,Graviton芯片不斷針對(duì)現(xiàn)實(shí)的工作負(fù)載進(jìn)行性能優(yōu)化:第二代專注于橫向擴(kuò)展性能,第三代聚焦高計(jì)算需求的專業(yè)工作負(fù)載,而第四代則成為專為云計(jì)算打造的性能最強(qiáng)芯片。
Peter DeSantis指出,過去兩年間,新投產(chǎn)的CPU算力中有超過50%運(yùn)行在Amazon Graviton上。
與此同時(shí),AWS Nitro System重新定義了服務(wù)器架構(gòu),從根本上革新了云的構(gòu)建和保護(hù)云的方式。AWS也將AWS Nitro System的安全性拓展到Amazon Graviton4,通過兩者的結(jié)合,打造出亞馬遜云科技迄今為止最安全的計(jì)算產(chǎn)品之一。
AI加速器的硬核進(jìn)化
Trainium加速器不屬于傳統(tǒng)的CPU或GPU,其采用了脈動(dòng)陣列架構(gòu),是專門針對(duì)AI工作負(fù)載優(yōu)化過的硬件架構(gòu)。
“人工智能工作負(fù)載不是橫向擴(kuò)展型的工作負(fù)載,而是擴(kuò)張類型的工作負(fù)載?!盤eter DeSantis說道。亞馬遜云科技采用“擴(kuò)張”的方式,專注于提高單個(gè)系統(tǒng)的容量,而不是采用“橫向擴(kuò)展”的方式,構(gòu)建多個(gè)相同的系統(tǒng),在多臺(tái)機(jī)器上分配工作負(fù)載。
在傳統(tǒng)CPU和GPU中,每個(gè)計(jì)算步驟通常需要從內(nèi)存讀取數(shù)據(jù)、執(zhí)行計(jì)算后,再將結(jié)果寫回內(nèi)存。這種頻繁的內(nèi)存操作會(huì)導(dǎo)致性能瓶頸,尤其是在需要大量帶寬的AI任務(wù)中。
脈動(dòng)陣列設(shè)計(jì)目的是高效處理大規(guī)模的矩陣或張量運(yùn)算,脈動(dòng)陣列通過將計(jì)算結(jié)果直接從一個(gè)處理單元傳遞到下一個(gè)處理單元,減少了對(duì)內(nèi)存的訪問需求,從而降低了內(nèi)存帶寬的壓力。
Trainium2 Server也得益于此,其是目前亞馬遜云科技最強(qiáng)大的機(jī)器學(xué)習(xí)服務(wù)器,其擴(kuò)張的速度也超過了曾經(jīng)所有的服務(wù)器?,F(xiàn)場(chǎng)還第一次展示了AWS Trainium2 UltraServer,其設(shè)置2個(gè)機(jī)架、4個(gè)服務(wù)器和64個(gè)Trainium加速器,以超高速的NeuronLink連接在一起。AWS Trainium2 UltraServer提供相比當(dāng)前EC2 AI服務(wù)器多達(dá)5倍的計(jì)算容量和10倍的內(nèi)存,算力峰值擴(kuò)展到83.2PFLOPS。
同時(shí)推出全新Trainium3,其采用3nm制程的芯片,與上代Trainium2相比,計(jì)算能力增加2倍,能源效率提升40%。Trainium3專為滿足下一代生成式AI工作負(fù)載的高性能需求而設(shè)計(jì),有助客戶更快地建立更大的模型,由Trainium3驅(qū)動(dòng)的UltraServers預(yù)計(jì)將比 AWS Trainium2 UltraServer的效能高出四倍。
亞馬遜云科技同時(shí)也注意到推理性能優(yōu)化的關(guān)鍵性需求,宣布了Latency-optimized inference option for Amazon Bedrock,使各種模型可以獲得最佳的推理性能。借助這一優(yōu)化,Claude 3.5 Haiku在亞馬遜云科技上的運(yùn)行速度比其他平臺(tái)快了60%。
AI生態(tài)的未來棋局
Anthropic 從成立那天起,就靠著前沿的 AI 技術(shù)圈足了眼球。11 月 23 日,亞馬遜再度追加40億美元投資,使總投資推高到80億。這可不只是砸錢,而是在下一盤關(guān)于AI未來的大棋。
Anthropic快速發(fā)展的背后,離不開亞馬遜云科技的強(qiáng)大技術(shù)支撐。其Amazon Trainium和 Amazon Inferentia芯片,不僅顯著提升了Claude模型的訓(xùn)練和推理性能,還顯著降低了成本。11月4日,Claude 3.5 Haiku也在Amazon Bedrock中正式可用。
Anthropic還在《周一晚間直播》中宣布了Project Rainier項(xiàng)目,計(jì)劃在數(shù)百個(gè)Amazon Trainium 集群上進(jìn)行訓(xùn)練,構(gòu)建出更快的、更可擴(kuò)展的AI,以支持Anthropic的未來模型開發(fā)。
亞馬遜云科技還有很多底層基礎(chǔ)架構(gòu)的創(chuàng)新,從性能提升到成本降低,每一項(xiàng)突破都在重新定義AI的技術(shù)邊界。