狠狠躁夜夜久久躁_911精品国产91久久久久_日本国产欧美三级在线_每日在线无码av

壓軸大作!OpenAI推出o3模型系列:AGI評測最佳成績達(dá)到驚人的87.5%,人類水平的門檻為85%

壓軸大作!OpenAI推出o3模型系列:AGI評測最佳成績達(dá)到驚人的87.5%,人類水平的門檻為85%

仰曉凡 2024-12-21 社會科技 153 次瀏覽 2個評論

  每經(jīng)編輯 杜宇

  當(dāng)?shù)貢r間12月20日周五,在為期12個工作日的線上新品發(fā)布活動最后一日,OpenAI宣布了“壓軸大作”:o1的下一代模型o3,而且一開始就要推出兩個版本,一個正式的o3,還有一個相對較小的精簡版o3-mini。

  OpenAI的CEO Sam Altman在直播中提到,OpenAI本次12日的活動第一天官宣了上線正式版o1、所謂滿血o1?;顒幼詈笠惶煊钟衞3亮相,首尾都由介紹推理模型呼應(yīng),也算是一種精心設(shè)計。

  邏輯上說,o1的下一代應(yīng)該命名為o2,至于為什么新模型叫o3,之前報道稱,OpenAI是為了避免和名為O2的英國電信服務(wù)商沖突。Altman也確認(rèn)了這點,說出于對O2的尊敬,并沒有起同樣的名字。

  直播中,Altman稱o3是“一個非常、非常聰明的模型”。OpenAi的評估結(jié)果也顯示,無論在軟件工程、編寫代碼,還是競賽數(shù)學(xué)、掌握人類博士級別的自然科學(xué)知識能力方面,o3都明顯高出o1一籌。同時測試顯示,o3在OpenAI實現(xiàn)通用人工智能(AGI)這一奮斗目標(biāo)上取得了突破,最高的測試成績達(dá)到了類人水平。

  今年9月,OpenAI發(fā)布o(jì)1的預(yù)覽版o1 preview時稱,o1是第一個具備真正通用推理能力的大模型,它的核心能力推理在測試化學(xué)、物理和生物學(xué)專業(yè)知識的基準(zhǔn)GPQA-diamond上得到了充分體現(xiàn)。據(jù)OpenAI評估,o1在該測試中全面超過了人類博士專家,準(zhǔn)確率達(dá)到78.3%,而人類專家的得分為69.7%。

  在12月20日的直播中,OpenAI展示了o3的測評表現(xiàn):

  根據(jù)OpenAI8月推出的SWE-bench Verified代碼生成評估基準(zhǔn),在軟件工程的能力測評中,o3的準(zhǔn)確度得分71.7,即準(zhǔn)確率71.7%,遠(yuǎn)超得分48.9的o1和得分41.3的o1 preview。也就是說,o3的準(zhǔn)確率比o1正式版高將近47%,比o1預(yù)覽版高將近74%。

  在競爭性編程網(wǎng)站Codeforces的競爭性代碼測評中,o3取得2727的Elo評分,o1評分1891,o1 preview評分1258。這個測評結(jié)果顯示,競爭性代碼方面,o3的評分比o1正式版高44%,是o1預(yù)覽版的兩倍多。

  經(jīng)過2024年AIME數(shù)學(xué)競賽的題目測試,o3的準(zhǔn)確度得分為96.7、即準(zhǔn)確率96.7%,大幅度超過了o1預(yù)覽版的56.7和o1的83.3%,僅錯了一道題,相當(dāng)于一名頂級數(shù)學(xué)家的水平。從競賽數(shù)學(xué)的角度看,o3的準(zhǔn)確率比o1正式版高15%,比o1預(yù)覽版高近71%。

  以人類博士專家的測試考驗,在測試化學(xué)、物理和生物學(xué)專業(yè)知識的基準(zhǔn)GPQA-diamond上,o3的準(zhǔn)確度得分為87.7,即準(zhǔn)確率87.7%,o1和o1 preview分別得分78.0和78.3。o3的準(zhǔn)確率比o1高將近13%,比o1預(yù)覽版高12%。

  OpenAI周五還展示了,o3的推理能力已經(jīng)更加接近實現(xiàn)AGI。

  以100%為最高分的ARC-AGI評估結(jié)果顯示,o1的得分在25%到32%,而o3的最低成績?yōu)?5.7%,最高成績?yōu)?7.5%。從這個結(jié)果看,o3的最佳成績超過了標(biāo)志著達(dá)到人類水平的門檻85%。

  創(chuàng)始ARC-AGI標(biāo)準(zhǔn)的前谷歌高級工程師、AI研究員Fran?ois Chollet表示,OpenAI這些推理模型在AGI測試中取得進步是“穩(wěn)健的”。

  Chollet周五在社交媒體X發(fā)帖,公布了同OpenAI合作進行的ARC-AGI測試結(jié)果,稱“我們相信這代表了讓AI適應(yīng)新任務(wù)的重大突破?!?/p>

  與o3模型相比,o3Mini模型在性能與成本平衡方面表現(xiàn)出色,能夠以較低的成本提供高效的服務(wù)。

  在編碼評估方面,o3Mini模型展現(xiàn)出了出色的性能提升。在CodeForces的評估中,隨著思考時間的增加,o3Mini模型的表現(xiàn)不斷提升,逐漸超越了o1Mini模型。

  在中位思考時間下,o3Mini模型的性能甚至優(yōu)于o1模型,能夠以大約一個數(shù)量級的更低成本提供相當(dāng)甚至更好的代碼性能。這意味著開發(fā)人員可以在不增加過多成本的情況下,獲得更高效的編程輔助,提高開發(fā)效率,降低開發(fā)成本。

  在數(shù)學(xué)能力測試中,o3Mini模型在2024年數(shù)據(jù)集上表現(xiàn)出色。o3Mini低模型的性能與o1Mini相當(dāng),而o3Mini中位數(shù)模型則取得了比o1更好的性能。在處理諸如GPQA等困難數(shù)據(jù)集時,o3Mini模型也能展現(xiàn)出一定的優(yōu)勢,實現(xiàn)了接近即時響應(yīng)的效果。

  此外,o3Mini模型支持函數(shù)調(diào)用、結(jié)構(gòu)化輸出、開發(fā)者消息等一系列功能,與O1模型相當(dāng)。在實際應(yīng)用中,o3Mini模型在大多數(shù)評估中實現(xiàn)了可比或更好的性能。

  在現(xiàn)場演示中,o3Mini模型的強大功能得到了直觀展示。例如,在一項任務(wù)中,模型被要求使用Python實現(xiàn)一個代碼生成器和執(zhí)行器。當(dāng)啟動運行該Python腳本后,模型成功啟動了本地服務(wù)器,并生成了包含文本框的用戶界面。

  用戶在文本框中輸入編碼請求后,模型能夠迅速將請求發(fā)送至API,并自動解決任務(wù),生成代碼并保存至桌面,隨后自動打開終端執(zhí)行代碼。整個過程復(fù)雜且涉及大量代碼處理,但o3 Mini模型在低推理努力模式下依然表現(xiàn)出了極快的處理效率。

  雖然o3的測評看上去表現(xiàn)驚艷,但OpenAI應(yīng)該不會很快面向大眾上線這款新的超級推理模型。

  從12月20日開始,OpenAI允許安全研究人員可以注冊訪問o3 和 o3-mini的預(yù)覽。OpenAI的一名發(fā)言人稱,OpenAI計劃明年初正式發(fā)布這些新的o3模型。

  每日經(jīng)濟新聞綜合公開資料

你可能想看:

轉(zhuǎn)載請注明來自綿陽綿城稅務(wù)師事務(wù)所,本文標(biāo)題:《壓軸大作!OpenAI推出o3模型系列:AGI評測最佳成績達(dá)到驚人的87.5%,人類水平的門檻為85%》

每一天,每一秒,你所做的決定都會改變你的人生!

發(fā)表評論

快捷回復(fù):

評論列表 (有 2 條評論,153人圍觀)參與討論
網(wǎng)友昵稱:平曼寒
平曼寒游客 沙發(fā)
04-09 回復(fù)
紅樓夢描繪了封建社會的眾生相,深刻揭示了人性的復(fù)雜與社會的矛盾,堪稱文學(xué)巨著。
網(wǎng)友昵稱:營依白
營依白游客 椅子
04-11 回復(fù)
紅樓夢是一部描繪封建社會家族興衰的巨著,其深刻的人物刻畫和豐富的生活描寫,展現(xiàn)了人性的復(fù)雜與社會的悲劇。
Top
網(wǎng)站統(tǒng)計代碼