快讯! OpenAI“草莓”发布,AI 展示博士级智能
爆米花独角兽
2024-09-13 05:13
订阅此专栏
收藏此文章


写在前面

OpenAI 于 2024 年 9 月 13 日 2 点(北京时间),正式发布了一款全新的人工智能模型,代号为“Strawberry”(草莓),现正式命名为 OpenAI o1。OpenAI 自称:“该模型具备在执行任务前评估自身步骤的能力,能够在复杂的数学、科学和编程问题上表现卓越。

于是我们对 OpenAI o1 立刻进行了体验,并且要求它对自己进行介绍,且写成一篇新闻稿。


本次 OpenAI 花了大量篇幅介绍“安全性”,似乎也是在对 Safe Intelligence 的回应。我们会另外写一篇文章着重介绍一下安全性的细节。



Figure I: 我正在要求他写新闻稿





【1】工作原理

与之前的版本不同,o1 模型在尝试回答问题之前会考虑不同的解决路径。


“我们训练这些模型在回应之前花更多的时间思考问题,就像人类一样,”OpenAI 在宣布新模型的博客中表示。“通过训练,它们学会了改进思维过程,尝试不同的策略,并识别自身的错误。”


这种训练方法使得模型能够通过复杂任务进行深度推理,比以往的模型在科学、编程和数学领域解决更难的问题。



【2】测试结果

在测试中,o1 模型在物理、化学和生物学等具有挑战性的基准任务中表现与博士生相似,并在数学和编程方面表现出色。


数学表现:在国际数学奥林匹克竞赛(IMO)的资格考试中,GPT-4o 仅正确解决了 13% 的问题,而 o1 模型解决了 83% 的问题。


编程能力:o1-mini 模型专门用于代码生成,在编程竞赛中表现卓越。




【3】局限性

尽管 OpenAI o1 具有显著优势,但也存在一些限制:


响应速度:它的回答速度较慢,因为在生成回复前需要进行更深入的思考。


功能限制:目前仅支持文本输入,不具备对特定文档进行推理或从网络实时获取信息的能力。


访问限制:即使获得访问权限的用户,每周也会受到 o1-preview 的 30 条消息和 o1-mini 的 50 条消息的限制。


作为一个早期模型,它目前还不具备使 ChatGPT 实用的许多功能,例如浏览网络信息以及上传文件和图片。在许多常见情况下,GPT-4o 在短期内会更强大。


【4】安全性

针对这些增强功能可能带来的风险,OpenAI 采取了新的安全培训方法,利用模型的推理能力使其更好地遵循安全和对齐指南。通过在上下文中对安全规则进行推理,模型能够更有效地应用这些规则。


OpenAI 通过测试模型在用户试图绕过安全规则(称为“越狱”)时能否继续遵循这些规则来衡量安全性。越狱测试结果:在最难的越狱测试之一中,GPT-4o 得分为 22(满分为 100),而 o1-preview 模型得分为 84。


此外,OpenAI 的评估发现,o1 在公司的准备度评分系统中被评为“中等风险”,因为它没有引发超出现有资源所能应对的风险。OpenAI 还加强了安全工作、内部治理以及与联邦政府的合作。这包括使用准备框架进行严格的测试和评估、顶级的红队评估以及包括安全与保障委员会在内的董事会级别的审查流程。


【5】模型命名与发布计划

这款新模型引入了全新的命名和编号系统,称为 OpenAI o1(字母“o”和数字“1”)。鉴于 AI 能力的显著提升,OpenAI 将编号重新从 1 开始,并将该系列命名为 OpenAI o1。


共存性:它将被添加到 ChatGPT 中,但会与现有的模型(包括 ChatGPT-4o)共存,并不会取代它们。


版本:还有一个轻量级版本的模型,称为 o1-mini,专门用于代码生成。


发布计划:OpenAI 正在分阶段推出 o1。ChatGPT Plus 和团队用户从今天开始有限制地访问 o1-preview 和 o1-mini。教育和企业客户下周将获得访问权限。


【6】深层含义与未来发展

这款模型可能正是 OpenAI 首席技术官Mira Murati在 5 月告诉 Axios 今年将发布的重要产品。OpenAI 也在研发一个更大版本的 GPT-4。


微软 CTO Kevin Scott在 5 月份的 Build 大会上表示,OpenAI 已经开始训练一个更强大的模型,他将其比作巨鲸,而 GPT-4 则像虎鲸,之前的模型则像鲨鱼和其他较小的海洋生物。虽然公司尚未说明何时发布,但这表明 OpenAI 在不断推进 AI 能力的边界。


【7】适用对象与应用场景

如果您正在处理科学、编程、数学等领域的复杂问题,这些增强的推理能力可能会特别有用。


医疗研究:o1 可以帮助医疗研究人员注释细胞测序数据。


物理学:物理学家可以利用 o1 生成量子光学所需的复杂数学公式。


软件开发:开发人员可以构建和执行跨领域的多步骤工作流程。




【8】结论

我们马上同时体验了 Chatgpt-4 和 Chatgpt o1, 发现 OpenAI-4 基本上不能用了,可能 OpenAI 把算力更多的匹配给了新模型,因为也更多的人在体验它,其次我们原本就发现,美西时间工作时间,模型的运行速度更快。很明显 openai 在人为的控制服务器数量。这其实让我更加的开始担忧人工智能的安全性。敬请关注下一篇文章,关于 Chatgpt 新模型的安全性的解析。



写在后面

我们会分享各式文章,有诙谐的,也有严肃的报告,我们会继续分享独角兽相关的内容,包括中国篇,团队篇,机构篇,Web 3 AI 篇。

这期间,还有插科打诨,行业吐槽等等;总的来说,研究是手段,吐槽才是目的。

VC 关注的那些事儿,用脱口秀说说

关注推特 @renkingeth,一起吐槽






【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

爆米花独角兽
数据请求中
查看更多

推荐专栏

数据请求中
在 App 打开