openai开发者大会派礼包：大幅降低模型成本，ai语音加持app，小模型“蹭”大模型性能,devday,视觉20241008-凯发k8凯发

openai开发者大会派礼包：大幅降低模型成本，ai语音加持app，小模型“蹭”大模型性能,devday,视觉

2024-10-08 00:42:04

openai开发者大会派礼包：大幅降低模型成本，ai语音加持app，小模型“蹭”大模型性能,devday,视觉

本文(wen)作者：李丹

来源：硬ai

美东时间10月1日周二，openai举行了年度开发者大会devday，今(jin)年的大会并没有(you)任何重大的产品发布，相(xiang)比去年大会显得更低(di)调，但(dan)openai也为开发者派(pai)发了几个大“礼(li)包”，对现有(you)的人(ren)工智(zhi)能（ai）工具和api套件做了改进。

本次(ci)openai devday推出一(yi)系列新工具，主要包括四大创新：提示(shi)词缓存（prompt caching）、视(shi)觉微(wei)调（vision fine-tuning）、实时api（realtime api）、模型蒸馏（model distillation），在降低(di)模型成本、提高模型视(shi)觉理解水平、提升语音ai功能和小模型性能方面，给开发者带来福音。

有(you)评(ping)论称(cheng)，今(jin)年devday的重点是提高开发者的能力和展示(shi)开发者圈子(zi)的故(gu)事，这表明随着ai领(ling)域的竞(jing)争日益激烈，openai的战略发生了转变。上述新工具突出表明，openai的战略重点是：增强其开发者的生态系统，而(er)不是直(zhi)接在终端用户应用领(ling)域竞(jing)争。

有(you)媒(mei)体提到，在devday活(huo)动前的记者会上，openai的首席产品官kevin weil谈及最近openai首席技(ji)术官mira murati和首席研究官bob mcgrew离职(zhi)，称(cheng)他(ta)们离开不会影响公司发展，“我们不会放慢脚(jiao)步”。

提示(shi)词缓存（prompt caching）可减少输入token成本多达50%

提示(shi)词缓存被视(shi)为本次(ci)devday发布的最重要更新。该功能旨在降低(di)开发者的成本、减少延迟。

openai引(yin)入的提示(shi)词缓存系统自动对模型最近处理的输入token提供50%的折(she)扣，这可能会让经常重复使用上下文(wen)的应用程序app得到大量节省。如此大幅降低(di)成本给企业和初创公司提供了探索新应用的重大机(ji)遇，因为这些应用以前由于费用高昂(ang)无(wu)法实现。

openai 平台产品负责人(ren) olivier godement称(cheng)，两(liang)年前gpt-3大获成功，现在openai已经将相(xiang)关成本降低(di)了将近1000倍。他(ta)举不出来其他(ta)任何一(yi)个两(liang)年内能将成本降低(di)同样幅度的例子(zi)。

以下openai的图表展示(shi)了，提示(shi)词缓存可以大幅降低(di)应用ai模型的成本，相(xiang)比各种(zhong)gdp模型的非缓存token，缓存输入token的成本可以减少多达50%。

视(shi)觉微(wei)调（vision fine-tuning）：视(shi)觉ai新前沿

openai devday公布，openai最新的大语言模型（llm） gpt-4o 引(yin)入了视(shi)觉微(wei)调。此功能让开发者能用图像和文(wen)本自定义模型的视(shi)觉理解功能。

这是被称(cheng)为视(shi)觉ai新前沿的重大更新。它可能会对自动驾驶汽车、医学成像和视(shi)觉搜索功能等领(ling)域产生深远影响。

openai 称(cheng)，东南(nan)亚版“美团滴滴” grab 已经利用这项技(ji)术改进其地(di)图服(fu)务。仅使用 100 个示(shi)例，grab 就让车道计数(shu)的准确(que)率提高了20%，限速标志定位率提高13%。

这种(zhong)现实世界的app展示(shi)了视(shi)觉微(wei)调的可能性，即(ji)使用小批量的视(shi)觉训练数(shu)据，显著增强各行各业的ai服(fu)务。

实时 api（realtime api）弥补对话式 ai 的差距

openai devday发布了实时 api，目前处于公开测试beta阶段。实时api 本质上简(jian)化(hua)了构建语音助手和其他(ta)对话式 ai 工具的过程，无(wu)需将多个模型拼接在一(yi)起(qi)进行转录、推理和文(wen)本到语音的转换。

这项新产品让开发人(ren)员能创建低(di)延迟的多模态体验，尤其是在语音转语音app中。这意味着开发人(ren)员可以开始将 chatgpt 的语音控件添加到app中。

为了说明该 api 的潜力，openai 展示(shi)了 wanderlust 的更新版本，它是一(yi)款在去年大会上展示(shi)过的旅行规划app。

借助实时 api，用户可以直(zhi)接与新版app对话，进行自然(ran)对话来规划行程。该系统甚(shen)至允许(xu)用户在语句(ju)中间打断(duan)，模仿人(ren)类之间的对话。

旅行规划只是一(yi)个例子(zi)，实时 api 为各个行业的语音app开辟了广泛的可能性。无(wu)论是专攻客服(fu)、教育领(ling)域还(hai)是残障人(ren)士使用的无(wu)障碍工具，开发者现在都可以利用新的资源创造更直(zhi)观、响应更快的ai驱(qu)动体验。

包括营养和健身指导app healthify 和语言学习平台 speak在内，一(yi)些app已经将先行一(yi)步，将实时api融合到自身产品中。

有(you)评(ping)论称(cheng)，实时api 的定价(jia)并不便宜，每分钟音频输入收费0.06 美元，每分钟音频输出收费0.24 美元，但(dan)对于希望创建基于语音app的开发人(ren)员来说，它仍然(ran)可以代表一(yi)个重要的价(jia)值主张。

模型蒸馏（model distillation）让小模型也可拥有(you)尖(jian)端模型功能

模型蒸馏被视(shi)为openai此次(ci)最具变革性的新工具。这种(zhong)集成的工作流(liu)程让开发人(ren)员能通过使用诸如gpt o1-preview 和 gpt-4o这类尖(jian)端模型的输出，对相(xiang)对较小且经济实用的高校模型进行微(wei)调，从而(er)提高更高效模型、如 gpt-4o mini的性能。

这种(zhong)方法让小公司也可能利用与尖(jian)端模型类似的功能，并且无(wu)需承(cheng)担(dan)使用这类模型的计算成本。它有(you)助于化(hua)解 ai 行业长期以来在尖(jian)端、资源密集型系统与更易于访问但(dan)功能较弱的系统之间的鸿沟(gou)。

比如一(yi)家从事医疗技(ji)术的小型初创公司要为农村的诊(zhen)所开发一(yi)种(zhong)ai 驱(qu)动的诊(zhen)断(duan)工具。使用模型蒸馏，该公司可以训练一(yi)个紧凑(cou)的模型，该模型可以捕捉大模型的大部分诊(zhen)断(duan)能力，同时只需要在标准的笔(bi)记本电脑或(huo)平板电脑上运行。

因此，模型蒸馏可以让资源受(shou)限的环境(jing)也能享(xiang)有(you)复杂的 ai 功能，有(you)可能提高医疗服(fu)务欠发达地(di)区的医疗保健水平。

发布于：上海市

凯发k8凯发的版权号:18172771662813

以上就是本篇文章的全部内容了，欢迎阅览！