对话京东何晓冬在推进ar增强现实技术应用于物品展示前我们必须先解决三个核心问题

在与何晓冬对话的过程中,提到了“多模态大模型”的兴起,以及它如何通过用户反馈数据来实现迭代更新。然而,这一技术早已在七年前就已经被何晓冬和微软雷德蒙德研究院的团队探索。在2016年3月,微软CEO纳德拉推出了一个名为CaptionBot的AI应用产品,这个应用仅在全球用户见面一周后,就突破了百万级别的用户量。这表明当时多模态技术已经有了初步成效,但最终没有成为如今ChatGPT这样的平台。

何晓冬在2023年的AIGC人工智能峰会上谈到,他曾是2014年开始做多模态AI的人之一。那时候,他们尝试将语言和视觉信号结合起来,以更好地理解语义层次上的信息。他们发表了一篇关于深度结构化语义模型DSSM的工作,并将其用于跨模态建模,提出了一种语言-视觉深度多模态语义模型(DMSM)。这项工作不仅成功地参加并获得了2015年的MS COCO图像字幕生成挑战赛第一名,而且也奠定了跨模态信息处理的基础。

尽管如此,当时他们也尝试将这些技术变成实际产品,但直到2016年的CaptionBot才真正实现这一点。CaptionBot可以让用户拍照,然后用文字描述照片内容,它非常简单易用,在发布后的第一个星期就获得了百万级别的下载量。

然而,尽管取得了一定的进展, CaptionBot最终未能成为今天ChatGPT这样的大型平台。不过何晓冬仍然认为,未来的大模型需要回答三个问题:首先是决定在哪个层次进行多模态信息融合;其次是如何解决当前大模型难以理解复杂上下文的问题;最后是如何确保大模型能够安全、高效地处理隐私敏感数据。

他相信,大型模式会带来AI技术普惠,而不是加剧鸿沟。当它们具备良好的信息压缩、知识网络构建、逻辑判断与推理能力时,将会降低进入门槛,使得产业受益尤其是那些之前无法使用高端工具的小企业。此时,不仅不会加剧数字鸿沟,还可能产生普惠价值。

猜你喜欢