很强也很贵!OpenAI12天12场直播收官,官宣最新推理模型o3

seo998 体育 2024-12-21 1 0

很强也很贵!OpenAI12天12场直播收官,官宣最新推理模型o3

  OpenAI的12天12场直播收官,离AGI(artificial general intelligence,通用人工智能)似乎又更近了一步。

  当地时间12月20日,和网友猜测的一样,人工智能(AI)巨头OpenAI发布最新推理模型o3和o3-mini。前一天,OpenAI公司CEO山姆·奥特曼(Sam Altman)就曾发文提到三个“o”暗示了o3的到来。

  为何新模型跳过了o2直接命名o3?奥特曼表示是为了避免和英国电信运营商O2冲突,“按逻辑应该称为o2,但我们起名字的能力实在太糟了,只能把它称作o3”。

  据介绍,在编码测试SWE-Bench Verified中,o3性能比o1高出22.8%;在Codeforces竞技编程中得分为2727分,相当于位列第175名的人类选手,甚至超过了OpenAI的首席科学家(2655分);在数学竞赛AIME 2024和专家级科学问题基准测试GPQA Diamond中成绩都得到明显提升;而在令很多AI和数学家都束手无策的最难数学和推理挑战FrontierMath中,o3解决了25.2%的问题,其他模型均未超过2%。

很强也很贵!OpenAI12天12场直播收官,官宣最新推理模型o3

很强也很贵!OpenAI12天12场直播收官,官宣最新推理模型o3

  不过,o3和o3-mini并未正式发布,安全研究人员目前可以注册获取o3-mini的预览版,o3预览版也将在之后的某个时间推出,OpenAI没有给出具体时间。在直播的一开始,奥特曼也强调了此次并不是发布,只是宣布o3。他表示,计划在1月底发布o3-mini,然后再发布o3。

  据外媒报道,AI安全测试人员发现,与传统的“非推理”模型相比,OpenAI此前发布的o1的推理能力使其试图欺骗人类用户的比例更高,同样,Meta、Anthropic和谷歌的领先模型也是如此。而o3试图欺骗用户的比例可能比它的前身更高。

  OpenAI在博客中表示,正在使用一种新技术“慎重对齐”(deliberative alignment),来使o3等模型符合其安全原则。

  通过OpenAI所谓的“私人思维链”,o3被训练成在做出反应之前先“思考”。可以对任务进行推理并提前规划,在较长时间内执行一系列动作,帮助找出解决方案。

  在实践中,当收到一个提示时,o3会在做出反应之前暂停,考虑一些相关的提示,并沿途“解释”其推理过程。一段时间后,模型会总结出它认为最准确的答案。o3 的新功能是“调整”推理时间,可以设置为低、中或高计算量(即思考时间),计算时间越长,执行任务时的表现就越好。

很强也很贵!OpenAI12天12场直播收官,官宣最新推理模型o3

  ARC-AGI(通用人工智能抽象与推理语料库)发起者、Keras(用Python编写的高级神经网络API)之父弗朗索瓦·肖莱(Francois Chollet)在o3发布后公布了一篇测试报告。

  报告显示,o3在高计算量模式下获得了87.5%的分数,在低计算量模式下,性能是o1的三倍。成本方面,低计算量模式下,每个任务需要花费20美元,而在高计算量模式中每个任务需要数千美元。

  肖莱表示:“它非常昂贵,但并不只是‘蛮干’——这些能力是全新的领域,需要科学界的认真关注。”

很强也很贵!OpenAI12天12场直播收官,官宣最新推理模型o3

  肖莱认为,虽然o3给人留下了深刻印象,是迈向AGI的一个重要里程碑,但并不就是AGI,仍然有相当多非常简单的ARC-AGI-1的任务是o3无法解决的,同时还有迹象表明ARC-AGI-2对o3来说仍极具挑战性,“这表明在不涉及专业知识的情况下,创建对人类来说容易但对人工智能来说不可能的不饱和、有趣的基准仍然是可行的。当创建这样的测试变得完全不可能时,我们将拥有AGI”。

  当然,ARC-AGI只是AI领域的重要基准之一,对AGI的定义只是其中之一。

  肖莱称,主要需要解决的问题是o3背后技术的扩展瓶颈在哪。如果人类标注的CoT数据(Chain-of-Thought,思维链)是一个主要瓶颈,那么它的能力就会像大模型一样迅速达到顶峰(直到下一个架构出现)。如果唯一的瓶颈是测试时间搜索(Test-Time Search),那么未来我们将看到持续的扩展。

  值得一提的是,除了OpenAI,各家AI公司近期也纷纷发布推理模型。

  11月16日,月之暗面(Moonshot AI)Kimi推出新一代数学推理模型k0-math;11月20日,DeepSeek发布了首个推理模型DeepSeek-R1-Lite预览版。11月28日,阿里云通义团队发布全新AI推理模型QwQ-32B-Preview;在当地时间12月19日,谷歌发布首个推理模型Gemini 2.0 Flash Thinking。

  英伟达CEO黄仁勋在10月的一次访谈中曾表达了对于推理的看好。他认为:“现在我们在后训练和推理阶段看到了扩展,预训练再也不被视为艰难,推理也变得复杂。推理方面即将因推理链的出现而大幅增长……这是一场智能生产的革命,推理的增长将达到亿倍的规模,这就像上学是为了将来在社会中有所贡献,训练模型很重要,但最终的目标是推理”。

  月之暗面Kimi创始人杨植麟也在11月表示,推理的占比必然会远超训练,AI产品包括AI技术接下来的发展,很重要的能力就是更加深度的推理,能够把现在只是短链路的简单的问答,变成更长链路的组合式任务的操作。

「活动」注册就送新人大礼包

84.29MB
版本V9.84.14
下载91黑丝播放安装你想要的应用 更方便 更快捷 发现更多
喜欢 18%好评(87人)
评论 40
0 1 2 3 4
详细信息
  • 软件大小: 81.23MB
  • 最后更新: 2024-09-16 18:34:53
  • 最新版本: V8.28.17
  • 文件格式: apk
  • 应用分类:ios-Android 成人午夜影视
  • 使用语言: 中文
  • : 需要联网
  • 系统要求: 5.41以上
应用介绍
一,污污网站观看,韩国漫画无遮掩
二,欧美性爱在线视频,好男人官网视频观看
三,午夜视频在线观看182tv,91性爱在线观看
四,美女被搞网站,777米奇91视频网
五,www.selaoban.com,黄色毛片兽
六,欧美干干干,奇米7777影视
七,经典三级久久,狠狠撩色姣姣综合久久

【联系我们】
客服热线:139-8888-666
加载更多
版本更新
V1.22.17
欧美一区二区丝袜高跟鞋,欧美黄视频

猜你喜欢

相关攻略
包含 饿了么 的应用集
评论
  • 4天前
    国产白丝自慰91
  • 插插动态图 7天前
    武侠古典亚洲色图
  • 4480青苹果影视 7天前
    欧美日韩国产综合在线
  • 黄瓜视频APP免费下载 6天前
    蜜臂
  • 60分钟床上色视频 2天前
    三级黄网在线
  • 尤物在线一区 4天前
    欧美日韩一区二区三区视视频
  • 日韩美女黄大片在线观看 5天前
    飘雪影院在线
  • 91探花小满在线观看 4天前
    成人网mm视频在线观看
  • 97超级碰碰碰.免费视频 4天前
    叼嘿下载软件大全
  • 番茄视频高清影视在线 9天前
    欧美人与物另类