配資平臺哪家正規(guī):配資論壇線上-馬斯克拆臺、微軟搶先接入！GPT-5終于來了一鍵生成網(wǎng)頁、博士級智能卻因基準圖錯誤遭吐槽

摘要：　　當?shù)貢r間8月7日，OpenAI宣布推出新一代旗艦人工智能（AI）模型GPT-5，稱它是“世界上最好的模型”，將免費提供給用戶。　　今天將向免費用戶...

代碼	名稱	當前價	漲跌幅	最高價	最低價	成交量(萬)

　　當?shù)貢r間8月7日，OpenAI宣布推出新一代旗艦人工智能（AI）模型GPT-5，稱它是“世界上最好的模型” ，將免費提供給用戶。

　　今天將向免費用戶、Plus用戶、Pro用戶和團隊用戶推出。下周向企業(yè)用戶和教育用戶推出。

圖源：OpenAI官網(wǎng)

　　面向所有用戶開放

　　可免費使用的“博士級專家 ”

　　OpenAI表示，GPT-5將面向所有用戶開放，Plus會員可獲得更多使用量，Pro會員則可訪問GPT-5 Pro版本——該版本具有擴展推理能力，可提供更全面、更準確的答案。

　　OpenAI在新聞稿中介紹，GPT-5的智能性能遠超公司之前的所有模型，在編碼、數(shù)學、寫作、健康、視覺感知等領域均擁有卓越的性能。

　　OpenAI表示，這項技術(shù)比之前的模型“感覺更人性化”，即使是新手也能通過簡短的文本提示構(gòu)建簡單的軟件應用程序。

　　一位OpenAI工程師要求該系統(tǒng)生成一款幫助人們學習法語的在線應用程序，而該系統(tǒng)在幾分鐘內(nèi)就創(chuàng)建完成了。

　　聲明補充稱，GPT-5是一個統(tǒng)一的系統(tǒng)，能夠識別何時快速響應，何時需要更長時間的思考以提供專家級的應答，不必由用戶手動選擇使用常規(guī)語言模型還是推理系統(tǒng) 。

　　ChatGPT團隊負責人Nick Turley表示，新模型在響應速度、回答準確性以及減少“幻覺”方面都優(yōu)于前代產(chǎn)品，“你跟它對話時，會感覺自然了不少。 ”

　　OpenAI首席執(zhí)行官山姆·奧特曼（Sam Altman）表示：“無論是顯而易見的還是微妙的，感覺都好多了。GPT-5第一次讓人感覺像是在與任何領域的專家交談——一位博士級別的專家。”奧特曼稱該系統(tǒng)是該公司朝通用人工智能（AGI）的最終目標邁出的“重要一步”。

　　山姆·奧特曼對GPT-5給予了極高評價，將GPT-5定位為通往AGI的重要里程碑。他表示：“在以往歷史上任何時期，擁有像GPT-5這樣的東西都是不可想象的。 ”甚至不惜用“踩”GPT-4抬高GPT-5。他說：“我嘗試過用回GPT-4，但效果相當糟糕。”

　　一鍵生成網(wǎng)頁、像詩人一樣寫作

　　更懂健康問題

　　根據(jù)OpenAI介紹，作為OpenAI的“最強大模型 ” ，GPT-5在三個關(guān)鍵領域?qū)崿F(xiàn)了顯著提升。

　　首先是編程能力。GPT-5是OpenAI迄今為止最強大的編碼模型，在復雜的前端生成和大型代碼庫調(diào)試方面表現(xiàn)突出，能夠僅憑一個提示就創(chuàng)建美觀響應式的網(wǎng)站、應用程序App和游戲。早期測試者注意到其在間距、排版和留白等設計選擇方面的改進。

　　在從GitHub獲取現(xiàn)實世界編碼任務的基準測試SWE-bench Verified中，GPT-5思考后首次嘗試的準確率達74.9%，高于OpenAI推理模型o3的69.1%和GPT-4o的30.8% 。

　　評論指出，這意味著，GPT-5的表現(xiàn)略勝于Anthropic周二推出的Claude Opus 4.1和谷歌DeepMind的Gemini 2.5 Pro，后兩者在SWE-bench Verified測試的得分分別為74.5%和59.6%。

　　不過，在衡量數(shù)學、人文和自然科學領域模型表現(xiàn)的各學科專家級能力Humanitys Last Exam測試中，帶有擴展推理功能的GPT-5增強版本GPT-5 pro在使用工具的情況下得分42%。這略低于得分44.4%的xAI模型Grok 4 Heavy 。

　　奧爾特曼稱，GPT-5尤其擅長按需啟動整個軟件App，也就是所謂的“氛圍編碼”、即用AI根據(jù)自然語言提示生成功能代碼，從而加快開發(fā)速度。

　　作為實例，OpenAI的研究者演示了，要求GPT-5創(chuàng)建一款網(wǎng)頁App，幫助說英語的用戶學習法語，且該App必須有一個引人入勝的主題，包含抽認卡、測驗、經(jīng)典的貪吃蛇游戲，以及追蹤每日學習進度的方法。

　　研究者將相同的提示詞提交到兩個GPT-5窗口中，幾分鐘后生成了兩個不同的App 。OpenAI的負責人稱，這些App“存在一些缺陷”，但用戶可以根據(jù)個人喜好再調(diào)整AI生成的軟件，例如更改背景或添加更多標簽頁。

　　在創(chuàng)意寫作方面，GPT-5能夠處理結(jié)構(gòu)復雜的寫作任務，如無韻律的抑揚格五音步詩或自然流動的自由詩，猶如詩人。OpenAI的ChatGPT業(yè)務副總Nick Turley表示，GPT-5在創(chuàng)意任務上表現(xiàn)出“更好的品味 ”，響應更自然。

　　健康咨詢是第三個重要提升領域。GPT-5能更積極地標記潛在健康問題，幫助用戶解析醫(yī)療結(jié)果，盡管OpenAI強調(diào)，ChatGPT不能替代醫(yī)療專業(yè)人員。

　　在名為HealthBench Hard Hallucinations的測試中，具備思考能力的GPT-5出現(xiàn)幻覺的錯誤信息率僅為1.6%。這遠低于GPT-4o和o3模型，后兩者的錯誤信息率分別為15.8%和12.9% 。

　　幻覺可能性顯著降低新的安全訓練模式

　　這是OpenAI首次使用推理模型來支持ChatGPT的免費版本。與之前的技術(shù)不同，推理模型可以花時間“思考”復雜的問題，然后才能確定答案，可減少“幻覺”或編造內(nèi)容的出現(xiàn)。

　　OpenAI表示，GPT-5的幻覺率較低，這意味著該模型編造答案的頻率較低。該公司表示，在開發(fā)GPT-5的同時，還進行了廣泛的安全評估，包括5000小時的測試。GPT-5將使用“安全完成”，而不是在用戶有潛在風險的情況下直接拒絕回答他們的問題。

　　OpenAI稱，GPT-5相比此前的模型更可靠和實用，它能更準確地回答現(xiàn)實世界的疑問，出現(xiàn)幻覺的可能性顯著降低。

　　在對代表ChatGPT生產(chǎn)流量的匿名提示詞啟用網(wǎng)絡搜索后，GPT-5響應中包含事實錯誤的可能性比GPT-4o低約45%；在思考后，GPT-5響應中包含事實錯誤的可能性比o3低約80%。下圖可見，GPT-5響應的錯誤信息率僅為4.8% ，GPT-4o為20.6%，o3為22%。

　　OpenAI還表示，為GPT-5引入了一種新的安全訓練形式，名為安全補全（safe completions）。它教模型在安全范圍內(nèi)盡可能給出最有幫助的答案。有時，這可能意味著部分回答用戶的問題，或者只提供高水平的回答。

　　如果需要拒絕，經(jīng)過訓練的GPT-5會以透明的方式告知用戶拒絕的原因，并提供安全的替代方案。

　　在受控的實驗和OpenAI的生產(chǎn)模型中，OpenAI都發(fā)現(xiàn)這種安全補全的方法更加細致入微，能夠更好地引導雙重用途問題，增強對模糊意圖的魯棒性，并減少不必要的過度拒絕。

　　OpenAI的后訓練負責人Michelle Pokrass表示：“GPT-5已經(jīng)過訓練，能夠識別任務何時無法完成，避免猜測，并能更清晰地解釋局限性，相比之前的模型，這減少了無根據(jù)的斷言。 ”

　　四種可選的ChatGPT聊天預設性格

　　OpenAI稱，GPT-5在指令執(zhí)行方面表現(xiàn)提升，其執(zhí)行自定義指令的能力也得到了相應的提升。OpenAI將為所有ChatGPT用戶推出四種預設性格的全新研究預覽版。

　　初始的四種性格選項——憤世嫉俗者（Cynic）、機器人（Robot）、傾聽者（Listener）和書呆子（Nerd）都是可選的，用戶可在設置中隨時調(diào)整，用以匹配ChatGPT和用戶的溝通風格。

　　上述四種性格最初適用于文本聊天，之后將擴展到語音聊天，讓用戶無需編寫自定義提示詞即可設置ChatGPT的交互方式——無論是簡潔專業(yè)的、周到支持的，還是略帶諷刺的。

　　基準圖錯誤遭吐槽

　　馬斯克也跑來拆臺

　　值得注意的是，在GPT-5的發(fā)布會上，現(xiàn)場也出了一些小bug ，直播中展示的性能圖表存在數(shù)據(jù)與圖表顯示不匹配的情況，例如在編程基準測試（swe-bench）的圖表中，GPT-5的準確率標注為52.8% ，但對應的柱狀圖高度卻超過了標注為69.1%的舊模型O3的柱狀圖，引發(fā)了網(wǎng)友的廣泛質(zhì)疑。奧特曼也承認了錯誤：

　　這樣的錯誤還不止一個：

　　更尷尬的是，馬斯克也跑來拆臺，轉(zhuǎn)發(fā)了GPT-5在ARC-AGI-2上沒有打敗Grok 4的消息：

　　連關(guān)于減少幻覺方面的demo，也被人挑出了毛病：

　　總體來看，GPT-5的表現(xiàn)在一些人看來沒有達到預期。

　　微軟：將把OpenAI的GPT-5整合到消費者、開發(fā)者和企業(yè)產(chǎn)品中

　　據(jù)財聯(lián)社報道，微軟將OpenAI的GPT-5集成到其Copilot生態(tài)系統(tǒng)中，包括Microsoft365Copilot、GitHubCopilot 、AzureAIFoundry和CopilotStudio。

　　新的智能模式支持動態(tài)模型切換，以增強推理和特定任務的響應。Microsoft365Copilot現(xiàn)在提供了對復雜查詢的改進上下文理解和處理，而GitHubCopilot用戶可以訪問GPT-5的高級代碼編寫功能。

　　GPT-5有四個版本，針對邏輯、多步驟任務和多模態(tài)企業(yè)應用程序進行了優(yōu)化。開發(fā)人員可以通過AzureAIFoundry利用GPT-5，利用其模型路由器來確保AI驅(qū)動的應用程序中特定于任務的精度。

（文章來源：華夏時報）

你可能想看：