当前位置：首页 > 数码 > AI走过多少路才迎来了ChatGPT

AI走过多少路才迎来了ChatGPT

数码
2024-10-26 13:22
0

ChatGPT的横空出世，引发了人工智能浪潮，科技公司们在人工智能领域的动作和竞争愈演愈烈。

早在57年前，麻省理工学院教授约瑟夫•魏岑鲍姆（Joseph Weizenbaum）就开发了全球第一个聊天机器人Eliza，将它定位为医生的助手。Eliza会主动向病人询问情况，并根据病人的回答进行接下来的对话。

这样可以根据输入的文本而进行流畅对话的聊天机器人是前所未有的。尽管患者在向Eliza描述病情时，得到的反馈非常有限，患者们还是很乐于和这个新奇的机器人交流，对Eliza展现出了相当大的狂热情绪，甚至有人坚信Eliza可以真实理解和感受人类。约瑟夫表示，“我没想到，普通人只是短暂接触到一个相对简单的计算机程序，也会产生严重的妄想症。”

ChatGPT的崛起背后是人类几十年来对人工智能的不懈探索。人工智能诞生之初，社会各界对AI无比乐观，专家甚至表示机器将在20年内完类的所有工作。很快，研究成果的匮乏直接带来了资金支持的削减和大批项目的流产，极度的乐观被极度的悲观取代，AI寒冬到来。接着，新技术、新发现又再次点燃了人们对于AI的热情，使得资金重新注入、进展再次到来。如此循环往复，人们对AI的情绪在悲观和乐观之间反复震荡，AI就这样螺旋式上升发展。

AI走了几十年，ChatGPT才来到了我们面前。人工智能是如何一步步发展起来的？科学家通过什么思路、以哪些方法模拟人类智能？近年来人工智能的迅速发展，以及AIGC行业的大热，是由什么技术而推动的？以下，Enjoy：

AI诞生：与寒冬

1956年，一些来自知名大学、企业和实验室的科学家汇聚在达特茅斯学院，就人工智能领域的研究开展暑期研究项目，AI学科正式诞生。

约翰·麦卡锡（John McCarthy）是该项目第一次会议的发起人，也是人工智能一词的创造者。在《关于达特茅斯学院人工智能主题的暑期研究项目的提议》中，他这样定义人工智能：“人类学习的每个方面或智能的任何特征，原则上都可以被非常精确地描述。人类可以制造出能够根据这些描述模拟人类智能的机器。”

在相关领域有所建树的科学家们相聚达特茅斯，其中不少人在未来成为了图灵奖和其他奖项的得主。除发起人约翰·麦卡锡（John McCarthy）外，参会的科学家还包括：马文·明斯基（Marvin Minsky）、克劳德·香农（Claude Shannon）、艾伦·纽厄尔（Allen Newell）、赫伯特·西蒙（Herbert Simon）和奥利弗·塞弗里奇（Oliver Selfridge）等。

以上对人工智能实现方式的三种探索分别代表了人工智能的三种学派——联结主义、符号主义、和行为主义，它们迎来过各自的强盛期，但终究以彼此融合的方式推动了AI研究的发展。

1950年，艾伦·图灵（Alan Turing）发表了划时代的《计算机器与智能》一文，提出了“机器可以思考吗”的重要问题，并提出了著名的“图灵测试”以检验机器是否拥有真正的智能。图灵测试的内容是：如果一台机器能够与人类展开对话而不被辨别出其机器身份，那么称这台机器具有智能。直到现在，图灵测试也被认为是测试机器是否存在智能的标准。从那时开始，72年来，人类一直在试图解决这个问题。

计算机下棋也许是“人工智能”行为最直观的例子。让机器自动玩智力游戏并寻求战胜人类，一直是人工智能领域追求的重要目标之一。因为智力游戏被公认为是智能的一种具体表现，而人工智能的终极目的就是用机器实现人类（部分）智能。1950年，达特茅斯会议的重要参加者、狂热下棋爱好者克劳德·香农（Claude Shannon）为《科学美国人》撰文，阐述实现人机博弈的方法。这篇论文为计算机下棋的理论研究奠定了基础，其主要思路在多年后的Deep Blue及AlphaGo中仍能看到。

克劳德·香农对于人机博弈的想法很快就变成了现实。在达特茅斯会议召开的1956年，IBM发布了亚瑟·塞缪尔（Arthur Samuel）设计的西洋跳棋程序。这个程序能够通过观察棋子的走位来构建新的模型，并以此提高自己的下棋技巧。Samuel和这个程序在进行对弈后发现，随着时间的推移，程序的棋艺变得越来越好。

Ilya Sutskever（左）、Alex Krizhevsky（中）和 Geoffrey Hinton（右）

该论文阐述了他们使用ImageNet数据库创建了一个名为AlexNet的开创性神经网络，AlexNet在各种图像的分类方面都要比以往任何方法准确得多。在著名的ImageNet图像识别大赛中，AlexNet拿下冠军。在这场比赛中，参赛者必须使用自己的系统来处理数百万的测试图像，并且以尽可能高的准确率进行识别。AlexNet赢得了比赛，错误率不到亚军的一半。AlexNet的Top-5错误率是15.3%；而在2012年以前，最好成绩是26%的错误率。该论文成功解锁了计算机视觉乃至整体深度学习的全面进步，将深度学习推向主流。

深度学习作为机器学习的分支，引领了接下来十余年的人工智能领域的发展。深度学习的兴起标志着数字技术的构建方式出现了根本的改变。工程师们不再细致地定义机器应该如何运行规则和代码，而是打造可以通过自身经验学习任务的机器，这些经验包含了巨量的数字信息，甚至没有人能完全理解。

获奖后，Hinton成立了一家名为DNNresearch的小公司，为了把它卖出个好价格，他决定组织一场拍卖。四家公司加入了这场竞拍，包括我们所熟知的国内大厂百度，国际巨头谷歌和它的老对手微软，还有一家刚成立不过两年的英国实验室。这家实验室就是DeepMind。当时还没有人想到，它将成为这个时代最著名且最有影响力的人工智能实验室，在人工智能领域为世界带来一次又一次惊喜。

百度出价1200万美元，但谷歌最终赢得了这场拍卖，顺便揽下了获奖者Alex Krizhevsky 和 Ilya Sutskever,还在两年后收购了DeepMind。当时的DeepMind被认为是最有可能研发出AGI（通用人工智能：具有一般人类智慧，可以执行人类能够执行的任何智力任务的机器智能）的实验室，谷歌收购DeepMind后实力大增，极有垄断AI行业的可能。为了对抗这种可能性，OpenAI于2015年诞生了。

尽管主流研究还集中在ANI的研究（如机器视觉、语音输入等），OpenAI从创立起，每一位参与者都坚信AGI是可行的，他们希望能够研制像人一样思考、能够应用于多种途径的机器智能。OpenAI以非盈利组织的形式成立，承诺发布研究成果并开源所有技术，汇集了众多理想主义的技术大牛，也吸引了不少投资。

这一年（2015年），神经网络研究再次迎来突破，Hinton所参加的ImageNet竞赛迎来了新冠军。何凯明在这年提出了ResNet深度残差网络，这是世界上第一个上百层的深度神经网络，开创了深度学习领域的里程碑。人工智能研究开始尝试输入更高量级的数据，以更精确地模拟人脑。

2016年，DeepMind所发布的AlphaGo已经击败了世界围棋冠军李世石，震动世界。人机大战最终局结束后，李世石独自一人掩面坐在棋盘前。这场比赛主动挑战执黑的李世石没能再次展现出“神之一手”，最终180手投子不敌AlphaGo。而人类VS人工智能也最终以1：4落下大幕。

李世石表示，“如果我再次与AlphaGo比赛的话，我不确定我能不能赢。在心理和技术上，我觉得人类已经很难赶上AlphaGo了，它已经做得很好了。”李世石失利后，不少棋手表示要为人类挽回颜面。

次年（2017年），世界排名第一的围棋冠军柯洁0：3不敌AlphaGo，人工智能的威力再次得到彰显，AlphaGo自此不再参加围棋比赛。10月，DeepMind发布了AlphaGo Zero。与学习大量人类棋谱的AlphaGo不同，AlphaGo Zero是自学成才类选手，自己和自己对弈，学成后以100：0的战绩碾压前辈AlphaGo。

12月，谷歌紧锣密鼓地发布了AlphaZero。这次，棋类AI终结者真的来了。它发扬了Alpha家族“后浪推前浪”的光荣传统，轻松击败了早出生两个月的AlphaGo Zero，还拿下了当时最好的国际象棋引擎Stockfish以及日本将棋程序Shogi。而AlphaZero完成这些成就之前自我训练的时间更是让人惊异：国际象棋9小时，日本将棋12天，围棋13天。只靠十几天的努力，它就下出了人类毕生努力也难达到的水平。

在人工智能在围棋领域已无敌手的这一年，谷歌继续一路开挂，发布了空前强大的Transformer模型。Transformer 被广泛认为是当时世界上发明最新和最强大的模型之一，一些人把它带来的人工智能领域方面的进步称作transformer AI。Transformer拥有强大的表征能力和并行计算优势，直到现在也深深影响着我们：我们在谷歌或必应浏览器上的每一次搜索，都与它有关。斯坦福大学的研究人员在2021年8月的一篇论文中将Transformer称作“基础模型”，认为它推动了AI的范式转变。最近大火的ChatGPT的GPT模型中的T就来自于Transformer。

谷歌团队将Transformer模型概括为一句话：Attention is All You Need. 这是一个完全基于注意力机制的编模型Transformer，完全抛弃了之前其他模型引入注意力机制后仍然保留的循环与卷积结构，在任务表现、并行能力和易于训练性方面都有大幅提升，因此也成为了后续机器翻译和其他许多文本理解任务的重要基准模型。

Transformer可以读取许多单词或句子来训练模型，充分理解词之间的相互关联，并预测接下来出现的词。Transformer架构不断发展并扩展到多种不同的变体，从语言任务扩展到其他领域。该模型应用相当广泛，可以实时翻译文本和语音，保证听障者也可以顺利参会；可以帮助研究人员了解DNA中的基因链和蛋白质中的氨基酸链，加快药物设计进程等等。前者应用如谷歌翻译，后者应用的例子就是大名鼎鼎的AlphaFold。

2020年，DeepMind的AlphaFold在国际蛋白质结构预测竞赛上击败了其余的参会选手，再次爆红。AlphaFold能够精确地基于氨基酸序列，预测蛋白质的3D结构。其准确性可以与使用冷冻电子显微镜（CryoEM)、核磁共振或X射线晶体学等实验技术解析的3D结构相媲美。DeepMind创始人哈萨比斯表示，这对于DeepMind来说是一个非常关键的时刻，DeepMind为此投入了巨大的人力及其他资源，以达成其解决这个非常重要的、现实世界的科学问题的目标。

该消息引起巨大震动。前基因泰克首席执行官亚瑟·莱文森（Arthur D. Levinson）博士称这一成就为“划时代的进步”。有评论称，AlphaFold必将成为科研“第四范式”时代的标志性事件，彻底变革科研方式。“第四范式”时代是图灵奖得主吉姆·格雷（Jim Grey）在去世前最后一次报告中预测的内容，他认为未来的科研发现都将建立在大量数据基础上，科学家将借助算法自动形成推论，最后通过现实实验确认。

在AIGC潮流下，谷歌顺势而上，一口气在2022年年末发布四款AIGC产品：文本图像模型Imagen、AI写作协助工具LaMDA Wordcraft、结合Imagen Video和Phenaki的超长连贯视频生成模型、无需任何训练的音频模型AudioLM。

然而，OpenAI没能让谷歌过个好年。OpenAI在2020年投喂海量数据、更接近人脑的超大基础模型GPT-3模型上持续提升，终于在2022年11月，ChatGPT横空出世，凭借其有反馈的交互式问答和像与人聊天一样的聊天体验成为了AIGC领域最闪亮的新星和毋庸置疑的代言人，其庞大的用户体量和讨论度令人震惊。OpenAI不忘初心，以强有力的姿态出现并打破了谷歌的垄断。谷歌匆忙迎战，短短几个月就推出Bard，然而Bard对谷歌谈不上加成，因为答错简单的问题引发群嘲，进一步验证了ChatGPT的强大。

如今的ChatGPT在文本方面引领热潮，通过引入RLHF机制，持续优化模型效果，能完成问答、诗歌创作、代码写作等，可以说是非常全能。在ChatGPT引发的潮流之下，多个科技巨头加码布局交互式文本。

同时，其他AIGC产品的集中发布，从效率、质量、多样性等方面为内容生产带来了巨大变革。新一代AIGC模型可以处理文字、语音、代码、图像、视频、机器人动作等格式，为用户带来AIGC时代的内容生成新体验。

真正的AGI还会远吗？

1996年，IBM的超级计算机深蓝大战人类国际象棋冠军卡斯帕罗夫，卡斯帕罗夫是世界上最富传奇色彩的国际象棋世界冠军，这次比赛最后以4：2比分战胜了深蓝。这是全世界第一次感到计算机智能水平有了质的飞跃的时刻。

卡斯帕罗夫在22岁就成为了最年轻的国际象棋世界冠军，在与深蓝交战之前和之后都获得了无数世界冠军。尽管他在代表人类对弈深蓝时失败，但一幕将永远被历史铭记。卡斯帕罗夫对自己的失败也表示出了高度乐观：

机器的胜利，也是背后开发者的胜利。机器先是取代了人的体力劳作，现在正给有大学学位的脑力工作者带来压力。作为一个跟机器斗争过并败下阵来的人，我要说这是个好消息。如果这种压力消失，就意味着技术停止进步了。真正重要的是人类与机器一起生活工作的感受。如果我们想最大程度地利用科技，就必须直面我们的恐惧。

卡斯帕罗夫也许可以给现在因为ChatGPT而感到惊喜和冲击的我们一些思考。如今，OpenAI引领AGI（通用人工智能）的探索，或许在不远的将来，AGI时代真正来临，我们将面对一个意想不到的、完全不同的世界。

在AI的螺旋式上升发展过程中，挑战和机遇并存，惊喜和意外同在，人们的乐观和悲观情绪更是时常转换。而我们能做的，只有在科技发展这条不可逆行的快车道上，以勇敢和乐观拥抱人工智能，将人工智能为我们所用。

References:

1.Eliza:The Chatbot Who Revolutionised Huamn-Machine Interaction[An Introduction],medium，https://medium.com/nerd-for-tech/eliza-the-chatbot-who-revolutionised-human-machine-interaction-an-introduction-582a7581f91c

2.达特茅斯官网：https://home.dartmouth.edu/about/artificial-intelligence-ai-coined-dartmouth

3.Claude E. Shannon:Founder of Information Theory, Scientific American,https://www.scientificamerican.com/article/claude-e-shannon-founder/

4.Alan Turing and the Turing Test, Turing Organization,https://www.turing.org.uk/publications/testbook.html

5.The Robot Scientists Are Coming. But Thats Not a Bad Thing, Discover,https://www.discovermagazine.com/technology/the-robot-scientists-are-coming-but-thats-not-a-bad-thing

6.Meet the Roombas Ancestor The Cybernetic Tortoise,IEEE Spectrum, https://spectrum.ieee.org/amp/meet-roombas-ancestor-cybernetic-tortoise-2650279709

7.A brief history and technical review of the expert system research,IOP Conference, https://iopscience.iop.org/article/10.1088/1757-899X/242/1/012111/pdf

8.IBM官网：https://www.ibm.com/ibm/history/ibm100/us/en/icons/ibm700series/impacts/

9.Newell and Simons Logic Theorist: Historical Background and Impact on Cognitive Modeling,HFES,https://journals.sagepub.com/doi/abs/10.1177/154193120605000904

10.What Ever Happened to IBMs Watson? The New York Times,https://www.nytimes.com/2021/07/16/technology/what-happened-ibm-watson.html

11.《人工智能实践录》作者/中国电子信息产业发展研究院（赛迪研究院）人工智能产业创新联盟

12.《人工智能简史》作者/尼克

13.《深度学习导论》作者/[美]尤金·查尔尼克（Eugene Charniak），译者/沈磊，郑春萍

14.《深度学习》作者/[美]凯德·梅茨

15.中金证券：《AI十年展望（一）：底层模拟人脑，算力决定上限》

16.华泰证券：《传媒：AIGC引领内容生产方式变革》

17.前沿技术：神经网络与深度学习，作者/罗威博士，宇航智控(ID:yhznkz_lab)