智源大会公布全球最大AI模型175万亿参数超过谷歌和OpenAI

智东西(公众号:zhidxcom)

作者 心缘

编辑 漠影

智东西6月1日报道,上午,在聚集了200余位国内外顶尖AI专家的2021北京智源大会开幕式上,北京智源人工智能研究院发布全球最大预训练模型——“悟道2.0”巨模型,参数量高达1.75万亿!

北京智源大会是由智源研究院主办的年度国际性AI高端学术交流会议,定位于“内行的AI会议”,旨在成为北京乃至中国AI发展的学术名片。

而此次重磅发布的“悟道2.0”巨模型,是中国首个全球最大万亿模型,比有1.6万亿个参数的谷歌最大模型Switch Transformer,足足多了1500亿个参数;是OpenAI GPT-3模型参数量的10倍。

此外,“悟道2.0”还取得多项世界级创新突破,在预训练模型架构、微调算法、⾼效预训练框架等⽅面实现了原始理论创新,并在世界公认的AI能⼒排名榜单上,取得9项能⼒的领先地位。

智源“悟道”智能模型:大模型 大平台 大生态

尤其值得⼀提的是,这个由智源副院⻓、清华⼤学教授唐杰率领中国科学家团队联合攻关的万亿模型,首次100%基于国产超算平台打造、运⽤中国技术,打破原来只能用GPU训练模型的问题。

智源研究院还与新华社战略合作,将悟道模型应用于新闻数字化转型;并合作智谱AI、微软小冰公司,联合培养准备进入清华唐杰实验室的中国首位原创虚拟学生“华智冰”。

二、为什么“全球最大”模型,会出现在智源?

“悟道”攻关团队由智源副院⻓、清华⼤学教授唐杰领衔,清华、北大、⼈大、中科院等100余位科学家联合攻关,形成了AI的特战团队。

今年3月20日,智源研究院发布我国首个超大规模智能模型“悟道1.0”,包含中文、多模态、认知、蛋白质预测在内的系列模型,取得了多项国际领先的AI技术突破。

开创性的FastMoE技术,是打破国外技术瓶颈,实现“万亿模型”基石的关键。

此前因谷歌万亿模型的核心参数MoE(Mixture of Experts)和其昂贵的硬件强绑定,绝⼤多数⼈无法得到使用与研究机会。

MoE是⼀个在神经网络中引入若⼲专家⽹络(Expert Network)的技术,能直接推动预训练模型经从亿级参数到万亿级参数的跨越,但它离不开对谷歌分布式训练框架mesh-tensorflow和谷歌定制硬件TPU的依赖。

而FastMoE打破了这⼀限制:作为首个支持PyTorch框架的MoE系统,它简单易用、灵活、⾼性能,且⽀持大规模并行训练。

FastMoE由“悟道文汇”和“悟道文溯”两个研究小组联合攻关,可在不同规模的计算机或集群上支持探索不同的MoE模型在不同领域的应用,相比直接使用PyTorch实现的版本,提速47倍。

面向预训练模型的全链路高效训练框架CPM-2

(1)⾼效编码:研发了最高效、最抗噪的中⽂预训练语⾔模型编码,解决⽣僻字等问题;

(2)⾼效模型:构建了世界首个纯非欧空间模型,只需一半的参数量,即可达到近似欧式模型的效果;

(3)⾼效训练:世界首创⼤规模预训练模型融合框架,形成⾼效训练新模式,训练时间缩短27.3%,速度提升37.5%;

(4)⾼效微调:世界首创多类别Prompt微调,只需训练0.001%参数,即可实现下游任务适配;

(5)高效推理:世界首创低资源⼤模型推理系统,单机单卡GPU可进⾏千亿规模的模型推理。

悟道·文源还包含世界最大中文自然语言能力评测数据集,这是目前最全面系统的中文自然语言能力评测基准,能综合反映模型的语言能力。

除了在今天上午发表演讲的图灵奖得主、加拿大蒙特利尔大学教授Yoshua Bengio之外,图灵奖得主、计算机体系结构宗师David Patterson,2017年欧洲大脑奖得主、世界著名神经科学家Peter Dayan,加州大学伯克利分校人工智能统计中心创始人Stuart Russell,自动驾驶之父Sebastian Thrun,计算可持续性领域开创者Carla Gomes,国内AI经典西瓜书《机器学习》作者、学教授周志华等国内外200余位尖端AI专家,均将在接下来的三天内分享前沿思想。

后续,智东西将发来更多北京智源大会的报道,包括与学术领袖的采访交流,敬请期待。