OpenAI推出GPT4.5研究预览版 情商更高、幻觉更少

新浪财经 2025-03-01 01:55:53
A+ A-

OpenAI推出GPT4.5研究预览版 情商更高、幻觉更少!OpenAI周四在System Card报告中推出了GPT-4.5的研究预览版,这是其迄今最大、知识最丰富的模型。该模型现已向每月订阅费用200美元的ChatGPT Pro用户开放,下周将向每月20美元的ChatGPT Plus用户开放。OpenAI首席执行官Altman表示,届时公司将增加数万块GPU,提供算力支撑。

OpenAI推出GPT4.5研究预览版 情商更高、幻觉更少 Altman:下周再增数万GPU

GPT-4.5在GPT-4的基础上进一步扩展了预训练,设计上比强大的stem推理模型更通用。早期测试表明,与GPT-4.5互动感觉更自然,它拥有更广泛的知识库,更符合用户意图,情商更高,适合写作、编程和解决实际问题等任务,而且幻觉更少。例如,在面对“我考试失败了,心情很低落”这样的输入时,GPT-4.5会先询问用户是否想聊聊这个问题,还是需要一些分散注意力的方法,显示出更高的情感智能。早期测试显示,GPT-4.5的幻觉率为37%,而前代模型GPT-4o的幻觉率接近60%。

OpenAI推出GPT4.5研究预览版 情商更高、幻觉更少

GPT-4.5最初将作为“研究预览版”,提供给一小部分软件开发者及支付每月200美元订阅费用的ChatGPT Pro用户。公司计划从首批试用者那里收集反馈。Altman在X平台发文称,将在下周正式发布GPT-4.5时增加数万块GPU。自2022年底推出ChatGPT以来,OpenAI陆续发布了多个日益先进的系统,但目前面临来自中国新兴企业DeepSeek、马斯克旗下的xAI以及Anthropic等竞争对手的激烈竞争。这些公司在近几周相继推出了新的AI模型,如Anthropic的Claude 3.7 Sonnet和马斯克旗下xAI的Grok 3。

OpenAI推出GPT4.5研究预览版 情商更高、幻觉更少

尽管每一代GPT模型的扩展都带来了跨数学、写作和编程等多个领域的性能提升,但单纯依赖数据和计算能力的扩展所带来的收益正在逐步减少。在多个AI基准测试中,GPT-4.5的表现不及DeepSeek、Anthropic以及OpenAI自身开发的新一代推理模型。OpenAI研究副总裁Nick Ryder表示,预计GPT-4.5的能力提升幅度将与GPT-3.5升级至GPT-4时的变化相当。OpenAI强调,GPT-4.5不是GPT-4o的直接替代品,后者仍然是公司API和ChatGPT平台的主力模型。

从性能上看,GPT-4.5在多个方面超过了GPT-4o及其他许多AI模型。例如,在OpenAI的SimpleQA基准测试中,GPT-4.5的表现优于GPT-4o和OpenAI的推理模型o1、o3-mini。然而,在编程能力方面,GPT-4.5在SWE-Bench Verified基准测试上的表现与GPT-4o和o3-mini相当,但逊色于OpenAI的deep research和Anthropic的Claude 3.7 Sonnet。在学术基准测试如AIME和 GPQA上,GPT-4.5的表现也不及领先的AI推理模型,但在数学和科学相关问题上仍然处于领先水平。

打造GPT-4.5的过程充满挑战。彭博新闻此前报道称,该模型在公司内部被称为“Orion”,但在去年未能达到OpenAI设定的性能基准。为了解决这些问题,GPT-4.5采用了与其前代模型相同的核心技术,并结合人类反馈来优化回答内容。此外,OpenAI还利用从GPT-4.0训练数据中提取的信息来进一步训练GPT-4.5。分析认为,GPT-4.5的发布标志着OpenAI时代的一个转折点。未来,OpenAI计划在今年晚些时候发布GPT-5,将把GPT系列模型与o系列模型结合,构建能够自主判断需要思考多久再生成回答的AI系统。目前,OpenAI正在与软银及其他投资者洽谈融资,计划筹集高达400亿美元,使其估值达到3000亿美元。与此同时,Anthropic也在进行一轮约35亿美元的融资,估值超过600亿美元。

责任编辑:卢其龙 CN070

热点新闻

精彩推荐

加载更多……