xAI 推出 Grok 3 Beta,並開放試用

 Elon Musk 稱這是最聰明的 AI


Grok3 是一款由 xAI 開發的先進 AI 聊天機器人,於 2025 年 2 月發布,旨在作為個人助理,提供網頁搜索和其他功能以準確回答用戶問題。這款聊天機器人由 Elon Musk 創建的 xAI 公司開發,作為其 AI 技術進展的一部分,旨在與其他主要 AI 模型競爭,如 OpenAI 的 GPT-4o 和 Google 的 Gemini。
開發背景與發布
根據多個新聞來源和 xAI 的官方博客,Grok3 於 2025 年 2 月發布,標誌著 AI 技術的重大進展。它的發布正值 AI 競爭加劇的關鍵時刻,xAI 試圖與 DeepSeek、OpenAI 和 Google 等競爭對手競爭。發布後,Grok3 立即向 X 的 Premium+ 訂閱者推出,並通過移動應用和 Grok 網站 提供新的 SuperGrok 訂閱層級。
訓練與計算能力
Grok3 的訓練在 Colossus 超級集群上進行,使用了比前代模型多 10 倍的計算能力。這一訓練過程包括對法院案件檔案等擴展數據集的處理,使其在推理、數學、編碼、世界知識和指令遵循任務上表現顯著提升。據 xAI 的博客稱,Grok3 的預訓練於 2025 年 1 月初完成,顯示出其開發的快速進展。
推理與性能基準
Grok3 的核心優勢在於其強大的推理能力,通過大規模強化學習(RL)精煉,能夠進行秒級到分鐘級的思考,糾正錯誤並探索替代方案以提供準確答案。在聊天機器人競技場中,Grok3 取得了 1402 的 Elo 分數,顯示出其在實世界用戶偏好中的領先表現。
其性能在多個基準測試中也表現優異,以下是與其他主要模型的比較表:
基準測試
Grok 3 Beta
Grok 3 mini Beta
GPT-4o
Gemini 2.0 Pro
DeepSeek-V3
Claude 3.5 Sonnet
AIME’24
52.2%
39.7%
9.3%
39.2%
16.0%
GPQA
75.4%
66.2%
53.6%
64.7%
59.1%
65.0%
LCB
57.0%
41.5%
32.3%
36.0%
33.1%
40.2%
MMLU-pro
79.9%
78.9%
72.6%
79.1%
75.9%
78.0%
LOFT (128k)
83.3%
83.1%
78.0%
75.6%
69.9%
SimpleQA
43.6%
21.7%
38.2%
44.3%
24.9%
28.4%
MMMU
73.2%
69.4%
69.1%
72.7%
70.4%
EgoSchema
74.5%
74.3%
72.2%
71.9%
具體成就包括 Grok 3 (Think) 在 AIME 2025 中達到 93.3% 的表現,GPQA 84.6%,LiveCodeBench 79.4%;Grok 3 mini 在 AIME 2024 中達到 95.8%,LiveCodeBench 80.4%。
功能與上下文窗口
Grok3 擁有一個 100 萬標記的上下文窗口,比前代模型大 8 倍,這使其在長上下文 RAG 使用案例(如 LOFT 128k)中表現卓越。此外,它包括 DeepSearch,這是一款 AI 代理,可以合成信息,推理衝突,並提供全面報告,配備了互聯網訪問和代碼解釋器。
訪問與 API
Grok3 可通過 X 平台的 Premium 和 Premium+ 訂閱訪問,這些訂閱者可以享受更高的使用限制,包括 Think 和 DeepSearch 功能。同時,它也通過 Grok 網站 和移動應用提供。對於開發者和企業用戶,Grok3 提供 API 訪問,未來計劃包括工具使用、代碼執行和進階代理功能,特別是通過企業 API(xAI 控制台)。
總之,Grok3 代表了 AI 技術的重大進展,其強大的推理能力、領先的基準表現和多功能性使其成為一個強大的個人助理工具,特別適合需要深入分析和實時數據訪問的任務。
------
測試的過程當中,最令人感到好奇的是這種自我認知的過程,在別的模型中似乎沒有看過:

https://www.youtube.com/watch?v=S3vT8gULjNs






熱門文章