Tesla首席執行官 Elon ·Musk 對汽車行業感到厭倦已不是什麼新鮮事,但 Tesla 最近的財報電話會議確實凸顯了這位 CEO 的注意力已經分散,執行團隊試圖將焦點重新聚焦於 Tesla 的未來不僅僅是一家汽車公司。
會議上,Musk 提出了一個有趣的觀點,他認為 Tesla 可以成為分散式推理雲計算的 Amazon Web Services(AWS),換句話說,他希望在 Tesla 的每一輛車閒置時出售其計算資源。
Tesla 的大型人工智能和自主性推動,Musk 表示 Tesla 的未來在於機器人出租車、機器人技術和人工智能,而不僅僅是我們所知的汽車。將其汽車網絡化以訓練人工智能模型自主「駕駛」被視為實現這一目標的關鍵。但 Tesla 首先需要做大量工作。
這將允許 Tesla 將其車隊中所有汽車的閒置計算能力出售給出價最高的買家,幾乎不需要額外努力就能為 Tesla 帶來收入。這樣的網絡化也將助力Musk 實現全自動駕駛機器人出租車的夢想,這些出租車由人工智能訓練和驅動。
如果這一目標可實現——正如許多關於 Tesla 的事情一樣,這是一個很大的「如果」——它可能代表了我們理解汽車存在和運作方式的根本性重塑。
在深入探討Musk 的大計劃之前,了解模型訓練和推理之間的區別非常重要,因為這兩者在新興的人工智能領域中適用,而且所需的硬件大不相同。
「訓練」一個人工智能模型意味著向算法提供精選數據以產生準確結果。模型從其獲取的數據中學習所需的結果,這可以用來教導其他應用如何行為。例如,顯示汽車安全進行無保護左轉的視頻片段可以幫助模型理解何時執行轉彎是安全的。
然後是推理,這是Musk 在演示中不斷使用的術語,用來描述他對於類 AWS 分散式計算平台的大計劃。
Cloudflare 很好地定義了推理:
推理是訓練有素的機器學習模型用來從全新數據中得出結論的過程。一個能夠進行推理的人工智能模型可以在沒有所需結果示例的情況下進行推理。換句話說,推理是人工智能模型的實際運作。
人工智能推理的一個例子可能是一輛自動駕駛汽車能夠識別停車標誌,即使是在它從未行駛過的道路上。在新的上下文中識別這個停車標誌的過程就是推理。
簡而言之: Tesla 在其數據中心編寫字典(訓練模型),然後 Tesla 的汽車將查找一個單詞(執行推理任務)。
Musk 的大計劃是,配備特定硬件版本的全球 Tesla (目前尚不清楚這是否意味著 HW3、HW4 或 HW5)可以被用作分散式計算資源集群來運行推理任務,基本上利用車載電腦中的資源運行 Tesla 已經訓練過的人工智能模型。
Musk 在第一季度財報電話會議上表示:
我認為這裡也有一些 AWS 元素的潛力。我們擁有非常強大的推理能力,因為我們在車輛中裝有硬件 3,但現在所有汽車都配備了硬件 4,”Musk 說。”硬件 5 幾乎已經設計完成,希望能在明年年底前安裝在汽車上。當汽車不在移動時,實際上有可能運行分散式推理。
所以,有點像 AWS,但分散式推理。訓練一個人工智能模型需要很多計算機,但運行它需要的計算量少得多。因此,如果你可以想象未來,或許有一支 1 億輛 Tesla 的車隊,平均每輛車大概有 1 千瓦的推理計算能力。那就是全球分佈的 100 吉瓦推理計算能力。
Musk 的想法是利用汽車電池中最多 1 千瓦的電力為車載推理電腦供電,這是車載全自動駕駛硬件套件的一部分。
將這種電力量放在背景下考慮,這基本上相當於在一台配備 Nvidia 最高端 4090 圖形卡的現代遊戲電腦中塞入一個超大型電源(並留有一些功率頭寸)。
對 Tesla 來說,這是一個雙贏的局面。最大的好處是建設或維護硬件不會花費他們一分錢。
正如Musk 在季度財報電話會議上直言不諱地說,「[資本支出]由全世界共享。」這意味著任何購買 Tesla 的人已經為汽車製造商計劃用於此目的的硬件付費。此外, Tesla 不必維護一個中央數據中心,在那裡電力和冷卻將花費他們的錢。
Musk 在那次電話會議上進一步說道:
[亞馬遜]發現他們有過剩的計算能力,因為全年的計算需求會在短時間內飆升至極端水平,然後他們在其餘時間有閒置的計算能力。那麼,他們應該如何處理這些閒置的計算能力呢?
將其變現。如果我們有數百萬甚至數千萬輛車,這些車的電腦大部分時間都是閒置的,那麼讓它們做一些有用的事情似乎是理所當然的。
然後我的意思是,如果你達到了 1 億輛車的水平,我認為我們會在某個時候達到,而且你有 1 千瓦的可用計算能力,也許到那時你已經擁有了自己的硬件 6 或 7。那麼我認為你可以擁有大約 100 吉瓦的有用計算能力,這可能比任何公司都多。
「每個人都擁有一小部分,」Musk 說。「他們也許能從中獲得一點利潤。」
所有硬件並非生而平等,人工智能在基礎層面上基於數學。訓練和推理使用不同的數字格式,其中兩種被稱為整數(Int)和浮點數(FP)。本質上,整數值只能是一個整數,而浮點數可以是帶有小數點的數字。這意味著你可以將 3.1415 存儲為浮點數,但只能將 3 作為整數本地存儲。通常,當需要更多精度時會使用浮點數。
整數和浮點數值都有有限的內存空間來存儲數字(例如;8 位、16 位和 32 位)。內存寬度越大,可以存儲的數字越精確,但隨之而來的是執行訓練和推理時隨著數字變得更精確而需要更多的計算能力。數字格式在執行不同類型的計算時有不同的效率權衡。通常,整數運算可以比浮點數更快地計算。
不同的推理任務可能需要不同程度的精度。一個模型可能對準確性非常重要,但可以分配某些較高的延遲水平,可能在推理中使用具有 32 位內存寬度的浮點值(簡稱 FP32),但可能會遇到瓶頸並產生更多延遲。另一個模型可能需要接近實時的結果,並為了速度而犧牲一些精度;這是一個訓練有素的模型可以在推理中使用量化值(將高精度值轉換為低精度值)以節省資源和時間並以較低的浮點數或甚至整數值進行處理的情況。
那麼這一切意味著什麼,為什麼它與 Tesla 類 AWS 租賃模式相關?
不同的硬件可以支持不同的本地數值處理。例如,Nvidia 的 H100 GPU 最近新增了對 FP8 的本地支持,而其前身 A100 則沒有這種本地支持。
這意味著,如果潛在客戶使用 FP8 數據類型進行推理並希望從 AWS 租用硬件,他們不會支付 EC2 P4 實例的費用,因為這些集群使用 Nvidia A100 GPU。他們將租用使用 H100 GPU 的 EC2 P5 實例。
Tesla 對這些 GPU 並不陌生。事實上,它正在水牛城超級工廠建設一個巨大的計算集群,以訓練每一輛在 Autopilot 啟動時使用的 Tesla 汽車的人工智能模型。Musk 在季度財報電話會議上表示, Tesla 的訓練計算集群目前使用 35,000 單位價值 40,000 美元的 Nvidia H100 GPU 來訓練 Tesla 的人工智能模型。Musk 預計該集群到 2024 年底將膨脹到大約 85,000 單位,這意味著將使用價值約 34 億美元的 GPU 進行模型訓練。
Tesla 的汽車使用一種成本更低、計算強度更低的解決方案來推理這些 GPU 訓練的數據。
這裡的要點是,相關硬件可能很昂貴, Tesla 的硬件可能不適合每一個通用推理工作。
Musk 表示,今天在車上進行的推理使用 Int8。目前尚不清楚 Tesla 的硬件是否設計為能夠有效計算其他數值格式,或者這可能是其即將推出的硬件版本 5(HW5)中添加的改進,預計將在 2025 年底安裝在運輸中的汽車上。
Tesla 尚未公開說明 HW4 的能力,然而,根據已知的有關其車載硬件的信息以及由臭名昭著的 Tesla 黑客 GreenTheOnly 提取的數據,估計 HW4 能夠使用 100 瓦的能量執行 245 兆次的整數操作(從 HW3 的 144 TOPS 提升)。
相比之下,一款現代 Nvidia 4060 GPU 可以在 115 瓦的最大功率消耗下執行 242 TOPS 的 Int8 計算,而 Nvidia H100 則可以在大約 700 瓦的情況下提供 3,958 至 7,916 TOPS(取決於形式因素)的 Int8 計算。