当前位置：首页 > 数码 > 智源大会公布全球最大AI模型175万亿参数超过谷歌和OpenAI

智源大会公布全球最大AI模型175万亿参数超过谷歌和OpenAI

数码
2024-10-13 13:38
0

智东西（公众号：zhidxcom）

作者心缘

编辑漠影

智东西6月1日报道，上午，在聚集了200余位国内外顶尖AI专家的2021北京智源大会开幕式上，北京智源人工智能研究院发布全球最大预训练模型——“悟道2.0”巨模型，参数量高达1.75万亿！

北京智源大会是由智源研究院主办的年度国际性AI高端学术交流会议，定位于“内行的AI会议”，旨在成为北京乃至中国AI发展的学术名片。

而此次重磅发布的“悟道2.0”巨模型，是中国首个全球最大万亿模型，比有1.6万亿个参数的谷歌最大模型Switch Transformer，足足多了1500亿个参数；是OpenAI GPT-3模型参数量的10倍。

此外，“悟道2.0”还取得多项世界级创新突破，在预训练模型架构、微调算法、⾼效预训练框架等⽅面实现了原始理论创新，并在世界公认的AI能⼒排名榜单上，取得9项能⼒的领先地位。

智源“悟道”智能模型：大模型大平台大生态

尤其值得⼀提的是，这个由智源副院⻓、清华⼤学教授唐杰率领中国科学家团队联合攻关的万亿模型，首次100%基于国产超算平台打造、运⽤中国技术，打破原来只能用GPU训练模型的问题。

智源研究院还与新华社战略合作，将悟道模型应用于新闻数字化转型；并合作智谱AI、微软小冰公司，联合培养准备进入清华唐杰实验室的中国首位原创虚拟学生“华智冰”。

二、为什么“全球最大”模型，会出现在智源？

“悟道”攻关团队由智源副院⻓、清华⼤学教授唐杰领衔，清华、北大、⼈大、中科院等100余位科学家联合攻关，形成了AI的特战团队。

今年3月20日，智源研究院发布我国首个超大规模智能模型“悟道1.0”，包含中文、多模态、认知、蛋白质预测在内的系列模型，取得了多项国际领先的AI技术突破。

开创性的FastMoE技术，是打破国外技术瓶颈，实现“万亿模型”基石的关键。

此前因谷歌万亿模型的核心参数MoE（Mixture of Experts）和其昂贵的硬件强绑定，绝⼤多数⼈无法得到使用与研究机会。

MoE是⼀个在神经网络中引入若⼲专家⽹络（Expert Network）的技术，能直接推动预训练模型经从亿级参数到万亿级参数的跨越，但它离不开对谷歌分布式训练框架mesh-tensorflow和谷歌定制硬件TPU的依赖。

而FastMoE打破了这⼀限制：作为首个支持PyTorch框架的MoE系统，它简单易用、灵活、⾼性能，且⽀持大规模并行训练。

FastMoE由“悟道文汇”和“悟道文溯”两个研究小组联合攻关，可在不同规模的计算机或集群上支持探索不同的MoE模型在不同领域的应用，相比直接使用PyTorch实现的版本，提速47倍。

面向预训练模型的全链路高效训练框架CPM-2

（1）⾼效编码：研发了最高效、最抗噪的中⽂预训练语⾔模型编码，解决⽣僻字等问题；

（2）⾼效模型：构建了世界首个纯非欧空间模型，只需一半的参数量，即可达到近似欧式模型的效果；

（3）⾼效训练：世界首创⼤规模预训练模型融合框架，形成⾼效训练新模式，训练时间缩短27.3%，速度提升37.5%；

（4）⾼效微调：世界首创多类别Prompt微调，只需训练0.001%参数，即可实现下游任务适配；

（5）高效推理：世界首创低资源⼤模型推理系统，单机单卡GPU可进⾏千亿规模的模型推理。

悟道·文源还包含世界最大中文自然语言能力评测数据集，这是目前最全面系统的中文自然语言能力评测基准，能综合反映模型的语言能力。

除了在今天上午发表演讲的图灵奖得主、加拿大蒙特利尔大学教授Yoshua Bengio之外，图灵奖得主、计算机体系结构宗师David Patterson，2017年欧洲大脑奖得主、世界著名神经科学家Peter Dayan，加州大学伯克利分校人工智能统计中心创始人Stuart Russell，自动驾驶之父Sebastian Thrun，计算可持续性领域开创者Carla Gomes，国内AI经典西瓜书《机器学习》作者、学教授周志华等国内外200余位尖端AI专家，均将在接下来的三天内分享前沿思想。

后续，智东西将发来更多北京智源大会的报道，包括与学术领袖的采访交流，敬请期待。