共计 796 个字符,预计需要花费 2 分钟才能阅读完成。
对GPT-5的展望与挑战分析
我敢打赌,OpenAI的未来并不明朗,预计GPT-5将仅仅是GPT-4的一个规模扩展版,而以下问题依然难以得到解决:
- 推理的自适应计算
- 长期记忆(并非指长上下文)
此外,某些领域的表现仍将令人失望:
- 视觉理解
然而,以下几个方面或许会有显著的提升:
- 音频处理,涉及听与说——这并不是指自动语音识别的准确性,而是对语气的理解与表达能力
- 幻觉现象的减少
- 知识的广度与深度
- 为了节省推理成本的自适应计算
日期:2024年5月14日
GPT-4o的表现似乎与上述预期相符,我不认为OpenAI会在解决我提到的“当前无法处理”的问题之前推出GPT-5…
我想谈谈为什么我认为音频处理会有所改善,这也正是GPT-4o的主要亮点。这并非是因为音频技术有了突破,而是由于GPT-4在音频处理上的表现实在不尽如人意,仅仅是连接了一个ASR和语音合成引擎而已。在这种情况下,采用端到端的架构必将带来收益,最明显的是,GPT-4的方案在语气的识别与表达上完全缺乏控制。
另外,关于回答的长期更新?鉴于GPT-5的推出遥遥无期,我必须迅速调整以应对新技术的出现,以免受到意外的影响…
谈及那些我认为目前技术有潜力改善的问题,可能的解决方案如下:
视觉:通过视频预训练;投入大量资金进行数据标注
音频:采用端到端的处理方式
幻觉现象:通过规模化;与搜索引擎或RAG深度结合
知识的广度与深度:通过规模化;与搜索引擎或RAG深度结合
为了节省推理成本的自适应计算:使用MoE,但每个分支的深度不同
关于O1的更新:
来源:知乎
原文标题:GPT-5将会在什么时候问世? – MoonCancer 的回答
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完
