谷歌自稱AI超級計算機比英偉達A100更快、更環保
谷歌擁有自主定制的TPU芯片,其90%以上的人工智能訓練任務都通過這些芯片完成。人工智能訓練指的是為模型投喂數據,使之可以具備類似人類的文本聊天和圖片生成能力。
谷歌TPU目前已經是第四代產品。該公司周二發布了一篇論文,詳細闡述了該公司如何利用自己定制的光開關將4000多個芯片組合到一臺超級計算機中,從而將一臺臺的獨立機器連接在一起。
改善這些連接的效果已經成為科技公司開發人工智能超級計算機時的重要競爭點,這是因為谷歌Bard和OpenAI的ChatGPT使用的大語言模型規模急劇擴大,無法使用單一芯片完成。
這些模型必須分配到數千個芯片上運行,由這些芯片共同協作數周甚至更長時間來訓練模型。PaLM是谷歌迄今為止公開披露的規模最大的語言模型,該模型需要分配到兩臺各包含4000個芯片的超級計算機中,耗時50多天進行訓練。
谷歌表示,該公司的超級計算機使之可以在運行過程中輕松對芯片間的連接進行重新配置,有助于避免問題和調整性能。
“電路切換可以輕松繞過故障組件。”谷歌院士諾姆·喬皮(Norm Jouppi)和谷歌杰出工程師大衛·帕特森(David Patterson)在博文中寫道,“這種靈活性甚至可以讓我們改變超級計算機的互聯拓撲機構,從而加快機器學習模型的性能。”
雖然谷歌現在才剛剛公布其超級計算機的技術細節,但這套系統2020年就已經應用到該公司位于奧克拉荷馬州的數據中心。谷歌表示,創業公司Midjourney使用該系統訓練其模型,他們開發的工具只需要簡單的文本就可以生成全新的圖像。
谷歌在論文中表示,與第四代TPU同期上市的英偉達A100芯片相比,該公司的芯片速度達到A100的1.7倍,能耗效率達到A100的1.9倍。
英偉達發言人拒絕對此置評。
谷歌表示,他們并沒有將第四代TPU與英偉達現有的H100旗艦芯片進行對比,這是因為后者發布時間較晚,而且采用了更新的技術。
谷歌暗示,他們可能正在開發能夠與英偉達H100抗衡的新一代TPU,但并未披露細節信息。喬皮接受采訪時表示,谷歌擁有“未來芯片的健康管線”。