xAI 推出 Grok 3 Beta,並開放試用
Elon Musk 稱這是最聰明的 AI
Grok3 是一款由 xAI 開發的先進 AI 聊天機器人,於 2025 年 2 月發布,旨在作為個人助理,提供網頁搜索和其他功能以準確回答用戶問題。這款聊天機器人由 Elon Musk 創建的 xAI 公司開發,作為其 AI 技術進展的一部分,旨在與其他主要 AI 模型競爭,如 OpenAI 的 GPT-4o 和 Google 的 Gemini。
開發背景與發布
根據多個新聞來源和 xAI 的官方博客,Grok3 於 2025 年 2 月發布,標誌著 AI 技術的重大進展。它的發布正值 AI 競爭加劇的關鍵時刻,xAI 試圖與 DeepSeek、OpenAI 和 Google 等競爭對手競爭。發布後,Grok3 立即向 X 的 Premium+ 訂閱者推出,並通過移動應用和 Grok 網站 提供新的 SuperGrok 訂閱層級。
訓練與計算能力
Grok3 的訓練在 Colossus 超級集群上進行,使用了比前代模型多 10 倍的計算能力。這一訓練過程包括對法院案件檔案等擴展數據集的處理,使其在推理、數學、編碼、世界知識和指令遵循任務上表現顯著提升。據 xAI 的博客稱,Grok3 的預訓練於 2025 年 1 月初完成,顯示出其開發的快速進展。
推理與性能基準
Grok3 的核心優勢在於其強大的推理能力,通過大規模強化學習(RL)精煉,能夠進行秒級到分鐘級的思考,糾正錯誤並探索替代方案以提供準確答案。在聊天機器人競技場中,Grok3 取得了 1402 的 Elo 分數,顯示出其在實世界用戶偏好中的領先表現。
其性能在多個基準測試中也表現優異,以下是與其他主要模型的比較表:
基準測試 | Grok 3 Beta | Grok 3 mini Beta | GPT-4o | Gemini 2.0 Pro | DeepSeek-V3 | Claude 3.5 Sonnet |
---|---|---|---|---|---|---|
AIME’24 | 52.2% | 39.7% | 9.3% | — | 39.2% | 16.0% |
GPQA | 75.4% | 66.2% | 53.6% | 64.7% | 59.1% | 65.0% |
LCB | 57.0% | 41.5% | 32.3% | 36.0% | 33.1% | 40.2% |
MMLU-pro | 79.9% | 78.9% | 72.6% | 79.1% | 75.9% | 78.0% |
LOFT (128k) | 83.3% | 83.1% | 78.0% | 75.6% | — | 69.9% |
SimpleQA | 43.6% | 21.7% | 38.2% | 44.3% | 24.9% | 28.4% |
MMMU | 73.2% | 69.4% | 69.1% | 72.7% | — | 70.4% |
EgoSchema | 74.5% | 74.3% | 72.2% | 71.9% | — | — |
具體成就包括 Grok 3 (Think) 在 AIME 2025 中達到 93.3% 的表現,GPQA 84.6%,LiveCodeBench 79.4%;Grok 3 mini 在 AIME 2024 中達到 95.8%,LiveCodeBench 80.4%。
功能與上下文窗口
Grok3 擁有一個 100 萬標記的上下文窗口,比前代模型大 8 倍,這使其在長上下文 RAG 使用案例(如 LOFT 128k)中表現卓越。此外,它包括 DeepSearch,這是一款 AI 代理,可以合成信息,推理衝突,並提供全面報告,配備了互聯網訪問和代碼解釋器。
訪問與 API
Grok3 可通過 X 平台的 Premium 和 Premium+ 訂閱訪問,這些訂閱者可以享受更高的使用限制,包括 Think 和 DeepSearch 功能。同時,它也通過 Grok 網站 和移動應用提供。對於開發者和企業用戶,Grok3 提供 API 訪問,未來計劃包括工具使用、代碼執行和進階代理功能,特別是通過企業 API(xAI 控制台)。
總之,Grok3 代表了 AI 技術的重大進展,其強大的推理能力、領先的基準表現和多功能性使其成為一個強大的個人助理工具,特別適合需要深入分析和實時數據訪問的任務。
------
測試的過程當中,最令人感到好奇的是這種自我認知的過程,在別的模型中似乎沒有看過: