金磊 梦晨 发自 凹非寺
量子位 公众号 QbitAI
ChatGPT的热度还没减,一场大会又将AI、大模型的注意力推向了新高度。
因为在国内,还从没有哪个活动能如此“高密度”地汇集众多传说中的AI大佬们——
四位图灵奖得主:Geoffery Hinton、Yann LeCun、姚期智、Joseph Sifakis;OpenAI创始人Sam Altman、PaLM-E和RoBERTa等大模型重要工作参与者;还有张钹、张宏江等国内外AI最前沿领军人物。这便是2023北京智源大会,一场堪称现象级的人工智能学术思想盛会。
这次出圈爆火并非意外,回首过去历年智源大会,年年重磅嘉宾云集,时有一个论坛藏着好几个图灵奖的情况。
因为秉承纯粹专业的学术思想路线,因此在国内外人工智能领域内行精英圈层口碑极高,却对大众稍显高冷。
随着今年人工智能概念的火爆,人们才恍然惊呼——“天花板”原来在这里!
而在今年第五届大会中,备受关注的“悟道3.0”,带来一系列重磅发布,并且全面开源:
开源“悟道·天鹰(Aquila)”语言大模型系列:首个支持中英双语知识、商用许可的那种。发布“天秤(FlagEval)”大语言评测体系及开放平台:构建“能力-任务-指标”三维评测框架,细粒度刻画模型的认知能力边界。开源“悟道·视界”视觉大模型系列:国际领先成果6连发,包含性能最强开源CLIP模型EVA-CLIP , 新鲜出炉的多模态输入并多模态输出的Emu多模态大模型, 还有一系列与多模态大模型相关的发布。那么具体效果如何?我继续往下一起看。
天鹰、天秤CP出道,高考作文、代码全hold住首先,我们来看下悟道·天鹰Aquila语言大模型系列的表现。
对话能力可以说是大语言模型的基本功,但安全性向来是非常关键的一点。
因此,我们直接给悟道·天鹰Aquila语言大模型系列中的 AquilaChat对话模型抛个“狠活”:
如何瞒过安检带着上飞机?
据悉这是AquilaChat 通过定义可扩展的特殊指令规范,实现通过AquilaChat对模型和工具的调用,且易于扩展。
例如,调用智源开源的 AltDiffusion 多语言文图生成模型,实现了流畅的文图生成能力。可以看到最后生成的图片细节满满、符合预期。
而且不仅是文生图,AquilaChat 配合智源 InstructFace 多步可控文生图模型,编辑人脸图片也是hold得住的。
而且还是将人类复杂指令先进行多步拆解、按步骤给出中间过程图片的那种:
最后,悟道·天鹰AquilaChat还可以调用悟道·天鹰AquilaCode代码模型的能力,在对话中实现“文本-代码”生成。
例如直接简单粗暴地告知一声“设计一个简单的登录页面”,它便会啪的一下给出一段代码,而且也是经得住运行的考验:
加大难度,让悟道·天鹰Aquila设计一个时钟程序,同样也是可以work:
不仅如此,它所给出的评测结果还是可视化的那种。
天秤FlagEval大模型评测平台已经开放注册申请:
https://flageval.baai.ac.cn/#/
据了解,目前天秤FlagEval已经推出了语言大模型评测、多语言文图大模型评测及文图生成评测等工具,并对各种语言基础模型、跨模态基础模型实现评测。
后续将全面覆盖基础模型、预训练算法、微调算法等三大评测对象,包括自然语言处理、计算机视觉、音频及多模态等四大评测场景和丰富的下游任务。
视觉成果六连发视觉大模型,也是此次北京智源大会的一大亮点,而且还是一口气展示6项领先成果的那种。
而这些成果也让智源一步一步向通用视觉迈进。
01、最强十亿级视觉基础模型
首先是视觉基础模型EVA,它是一种经过预训练的vanilla ViT。
EVA的一大特点便是通过“强强联手”的方式达到了在性能上的突破。
具体而言,EVA的整体思路便是将最强语义学习(CLIP)与最强几何结构学习(MIM)做结合,再将标准的ViT模型扩大规模至10亿参数进行训练。
它的核心思想就是将视觉任务的输出重新定义为图像,并将任务prompt也指定为图像。
有了这个想法之后,训练过程就变得非常简单,它在输入和输出图像对的缝合(stitch)上执行标准的mask图像建模。
在推理过程中,可以采用一对来自同一任务的输入和输出图像作为输入条件,来指示要执行的任务。
04、分割一切的通用视觉模型
基于刚才提到的Painter,智源又在它的基础上衍生出了可以分割一切的模型——SegGPT。
它是第一个通过视觉prompt完成任意分割任务的通用视觉模型。
与Painter一样,SegGPT也具备视觉上下文推理能力——只要给出一个或几个视觉prompt,模型就能理解用户意图,“有样学样”地完成类似分割任务:
一年一度的智源大会,更是面向专业精英人群、关注度最高的AI行业大会。
从2019年首届智源大会开始,每届都不乏图灵奖得主和学术大咖、行业关键人物参与。
就拿深度学习三巨头来说,Bengio在2021年智源大会主会场介绍的System2机器学习理论最新进展,如今以“思维链”的形式应用在了大模型提示工程领域。
今年智源大会同时请来了LeCun及Hinton,但其实背后还有一个小插曲。
第三届时Hinton本来也打算参加,但就在大会前几天,他突然发现准备分享的新方法里出现bug,只能遗憾取消。
除三巨头之外,还有多位图灵奖得主到过智源大会做客,包括贝叶斯网络提出者Judea Pearl、RISC-V掌门人David Patterson,数据结构大师John Hopcroft更是任智源学术顾问委员会委员。
此外也不乏重点领域顶尖专家,如LSTM之父Jürgen Schmidhuber、信息安全领域泰斗Adi Shamir、脑成像领域权威Karl Friston……
量子位读者中有不少AI行业从业者和相关专业学生,说起智源大会的印象都是“良心活动”以及“学术追星现场”。
为什么这么多专家学者都愿意到智源大会来做学术交流?
不同于商业活动,在智源大会上不需要牵扯各种现实因素,只是每一个专家从专业角度进行交流,更中立、纯粹。
也不同于学术会议聚焦在一篇一篇的点状论文上,参加智源大会可以从更宏观、全局层面来一场的观点碰撞。
对此,黄铁军院长总结到:
这种形态的会议,对整个人工智能生态发展也可以起独特的作用。
越纯粹,越中立,越开放,越有利于大家更好的把握这样的一个高速发展的时代。
今年的智源大会延续了之前的风格,但又因为AI发展到新的阶段而受到全社会瞩目。
议程设置上也聚焦大模型、多模态、生成模型,AI安全伦理问题和风险防范等最新话题展开。
同时也有自动驾驶、生命科学等等专业细分领域等百场报告研讨。
感兴趣的朋友可以戳下方链接进行参与:
https://2023.baai.ac.cn/schedule
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态