xAI 推出 Grok 3 Beta，並開放試用

2月 21, 2025

Elon Musk 稱這是最聰明的 AI

Grok3 是一款由 xAI 開發的先進 AI 聊天機器人，於 2025 年 2 月發布，旨在作為個人助理，提供網頁搜索和其他功能以準確回答用戶問題。這款聊天機器人由 Elon Musk 創建的 xAI 公司開發，作為其 AI 技術進展的一部分，旨在與其他主要 AI 模型競爭，如 OpenAI 的 GPT-4o 和 Google 的 Gemini。

開發背景與發布

根據多個新聞來源和 xAI 的官方博客，Grok3 於 2025 年 2 月發布，標誌著 AI 技術的重大進展。它的發布正值 AI 競爭加劇的關鍵時刻，xAI 試圖與 DeepSeek、OpenAI 和 Google 等競爭對手競爭。發布後，Grok3 立即向 X 的 Premium+ 訂閱者推出，並通過移動應用和 Grok 網站提供新的 SuperGrok 訂閱層級。

訓練與計算能力

Grok3 的訓練在 Colossus 超級集群上進行，使用了比前代模型多 10 倍的計算能力。這一訓練過程包括對法院案件檔案等擴展數據集的處理，使其在推理、數學、編碼、世界知識和指令遵循任務上表現顯著提升。據 xAI 的博客稱，Grok3 的預訓練於 2025 年 1 月初完成，顯示出其開發的快速進展。

推理與性能基準

Grok3 的核心優勢在於其強大的推理能力，通過大規模強化學習（RL）精煉，能夠進行秒級到分鐘級的思考，糾正錯誤並探索替代方案以提供準確答案。在聊天機器人競技場中，Grok3 取得了 1402 的 Elo 分數，顯示出其在實世界用戶偏好中的領先表現。

其性能在多個基準測試中也表現優異，以下是與其他主要模型的比較表：

基準測試	Grok 3 Beta	Grok 3 mini Beta	GPT-4o	Gemini 2.0 Pro	DeepSeek-V3	Claude 3.5 Sonnet
AIME’24	52.2%	39.7%	9.3%	—	39.2%	16.0%
GPQA	75.4%	66.2%	53.6%	64.7%	59.1%	65.0%
LCB	57.0%	41.5%	32.3%	36.0%	33.1%	40.2%
MMLU-pro	79.9%	78.9%	72.6%	79.1%	75.9%	78.0%
LOFT (128k)	83.3%	83.1%	78.0%	75.6%	—	69.9%
SimpleQA	43.6%	21.7%	38.2%	44.3%	24.9%	28.4%
MMMU	73.2%	69.4%	69.1%	72.7%	—	70.4%
EgoSchema	74.5%	74.3%	72.2%	71.9%	—	—

具體成就包括 Grok 3 (Think) 在 AIME 2025 中達到 93.3% 的表現，GPQA 84.6%，LiveCodeBench 79.4%；Grok 3 mini 在 AIME 2024 中達到 95.8%，LiveCodeBench 80.4%。

功能與上下文窗口

Grok3 擁有一個 100 萬標記的上下文窗口，比前代模型大 8 倍，這使其在長上下文 RAG 使用案例（如 LOFT 128k）中表現卓越。此外，它包括 DeepSearch，這是一款 AI 代理，可以合成信息，推理衝突，並提供全面報告，配備了互聯網訪問和代碼解釋器。

訪問與 API

Grok3 可通過 X 平台的 Premium 和 Premium+ 訂閱訪問，這些訂閱者可以享受更高的使用限制，包括 Think 和 DeepSearch 功能。同時，它也通過 Grok 網站和移動應用提供。對於開發者和企業用戶，Grok3 提供 API 訪問，未來計劃包括工具使用、代碼執行和進階代理功能，特別是通過企業 API（xAI 控制台）。

總之，Grok3 代表了 AI 技術的重大進展，其強大的推理能力、領先的基準表現和多功能性使其成為一個強大的個人助理工具，特別適合需要深入分析和實時數據訪問的任務。

------

測試的過程當中，最令人感到好奇的是這種自我認知的過程，在別的模型中似乎沒有看過：

https://www.youtube.com/watch?v=S3vT8gULjNs

[ metamuse ]

xAI 推出 Grok 3 Beta，並開放試用

這個網誌中的熱門文章

在 Windows 11 中開啟自動登入

玩玩軟路由系統

Gatsby 廣告中木村拓哉機械舞的背後