藍鯨新聞4月17日訊(記者 朱俊熹)當?shù)貢r間4月16日,OpenAI發(fā)布最新的推理模型o3和o4-mini。OpenAI表示,這是其“迄今為止發(fā)布的最智能的模型”,在智能性和實用性方面設定了全新標準。
據(jù)OpenAI介紹,o3是其最強大的推理模型,在數(shù)學、編碼、科學、視覺感知等領域的表現(xiàn)都超過了前代o1、o3-mini模型?!八浅_m合處理需要多方面分析、答案可能不是立即顯而易見的復雜查詢。”o4-mini則是一款經(jīng)過優(yōu)化的小型模型,旨在提供快速、經(jīng)濟高效的推理。
在o3開發(fā)過程中,OpenAI稱發(fā)現(xiàn)大規(guī)模強化學習呈現(xiàn)出與GPT系列預訓練相同的趨勢,即“計算量越大,性能越好”。OpenAI在訓練計算量和推理過程中的思考方面都提升了一個數(shù)量級,看到了明顯的性能提升。通過強化學習,OpenAI還訓練兩個新模型使用工具。
最新的推理模型o3和o4-mini能夠組合使用ChatGPT中的所有工具,包括網(wǎng)頁搜索、圖像生成、使用Python分析數(shù)據(jù)等。在OpenAI提供的示例中,當用戶詢問電池技術的突破對電動汽車的影響時,o1模型在推理5秒后給出了文字、代碼片段為主的回復,而o3模型經(jīng)過40秒的推理時間,多次使用搜索功能,除文字外還能直接生成圖像和圖表。
圖片來源:OpenAI
相較于前代推理模型,新模型在視覺推理方面也取得突破。o3和o4-mini不僅可以“看到”圖像,還能夠用圖像來思考,將其整合到思維鏈中。例如,當用戶上傳一張倒著拍的手寫筆記照片時,模型在推理過程中能夠借助工具,對圖像進行縮放、旋轉或裁剪,最終識別出筆記上的手寫內容。
圖片來源:OpenAI
去年9月,OpenAI率先推出推理模型o1,引領了大模型范式的轉變。自那以來,全球許多大模型廠商都發(fā)布了自己的推理模型,包括谷歌Gemini 2.5、Grok 3,以及國內的DeepSeek-R1、通義千問QwQ-32B等,對OpenAI形成了追趕。3月底,阿里通義也推出了視覺推理模型QVQ-Max,同樣主打能結合圖片、視頻信息進行分析和推理。
激烈的競爭讓OpenAI對新模型的發(fā)布更為迫切。據(jù)英國《金融時報》上周報道,OpenAI一直在推動盡早發(fā)布o3模型,使得員工和第三方組織僅能在幾天時間內,對模型性能和風險進行安全評估。而2023年發(fā)布的GPT-4模型,經(jīng)過了6個月的評估。OpenAI強調,已對o3、o4-mini兩個模型進行了至今最嚴格的安全壓力測試。
事實上,o3模型原本并不在OpenAI的預期路線圖中。2月中,OpenAI CEO Sam Altman曾在社交平臺X上表示,將不會單獨發(fā)布o3模型,而是會將o3的技術集成到下一代GPT-5模型中,預計在幾周或幾個月內推出。Sam Altman曾多次抱怨,算力的限制導致公司不得不推遲新模型的發(fā)布。今年3月OpenAI完成400億美元的新融資后,他終于表示“不再受到計算限制”。
OpenAI稱,o3和o4-mini的發(fā)布反映了其模型的發(fā)展方向:將o系列的推理能力,與GPT系列的對話能力、工具使用能力相融合?!巴ㄟ^統(tǒng)一這些優(yōu)勢,我們未來的模型將支持無縫、自然的對話,同時進行主動的工具使用和高級問題解決?!?/span>