科技创新筑梦未来ChatGPT的奇妙征程与其转变力量

科技创新筑梦未来:ChatGPT的奇妙征程与其转变力量

ChatGPT能够自动生成一些读起来甚至表面上像人类写的文字的东西,这一成就令人惊叹且出人意料。但它是如何做到的?为什么它能发挥作用?在这里,我将尝试大致介绍一下ChatGPT内部的情况,以及探讨它为什么能很好地生成我们认为有意义的文本。我应当在一开始就说,我将把重点放在正在发生的事情的大画面上,虽然我将提到一些工程细节,但我不会深入研究它们。

首先要解释的是,ChatGPT从根本上说总是试图对它目前得到的任何文本进行“合理的延续”,这里的“合理”指的是“在看到人们在数十亿个网页上所写的东西之后,人们可能会期望某人写出什么”。因此,当我们假设已经得到了“人工智能最好的是它能去做……”这样的文本(例如,“The best thing about AI is its ability to…”),想象一下扫描数十亿页的人类书写文本,并找到这个文本所有实例,然后看到接下来出现了多少次。ChatGPT有效地做了类似的事情,只不过(正如我即将解释的)它不直接查看字面上的文本;而是寻找某种意义上的“意义相符”的东西。

值得注意的是,当ChatGPT做一些事情,比如写一篇文章时,它所做的事基本上只是反复询问:“鉴于到目前为止的文本,下一个词应该是什么?” —— 并且每次都增加一个词。(更准确地说,如我即将解释的一样,它在添加一个“标记”,这可能只是一个词的一部分,这就是为什么有时可以创造新词。)

但让我们回到这一点—— ChatGPT如何选择下一个单词来添加到其正在撰写或其他内容中呢?人们可能认为应该选择排名最高(即被分配最高概率)的那个。但如果我们总是挑选排名最高的话,我们通常会得到非常平淡无奇、缺乏创造力的文章,有时甚至是一字不差重复。这就是为什么偶尔(随机地)选择排名较低的话,我们会得到更加引人注目的文章。

这种随机性的加入意味着,如果使用相同提示多次生成同样的作业,每次结果都不同。而为了保持巫术般的情感,一种名为温度参数(temperature parameter)的概念存在于其中,其决定了以何种频率使用排名较低的话语。在论文生成中,事实证明0.8度 Celsius似乎是一个最佳设置。(需要强调的是,这里没有使用任何理论;这是实践中被发现可行的问题)。

为了论述目的,我大多不会使用完整系统;相反,我通常会用更简单但足够强大的 GPT-2 系统,因为它足够小,可以在标准台式电脑上运行,因此,对于展示所有内容,我可以包括明确沃尔弗拉姆语言代码,你可以立即运行你的计算机上了。(点击图片后复制其背后的代码 —— 译者注:请查看原链接中的图片获取代码)。

例如,这里是在获得概率表方面的一个例子。首先,我们必须检索底层神经网络:

值得指出,在第一步也有很多可能性的下一个单词可供选择,即使它们概率降低得很快,但直线对应n-1项幂律衰减,是语言统计特点之一:

这是 “温度为 0.8” 时的一个随机示例:这些概率来自哪里?好吧,ChatGPT总是根据概率来选择下一个单词。但这些概率又来源于何处?

让我们从更简单的问题开始。一旦生成英语字符序列,我们怎样才能算出每个字符出现几次?

一种非常简单的事情就是取英语文档样品,然后计算不同字符出现频率。在此基础之上,如果你想要基于实际数据推导这些预测,就必须拥有比现今数量还要庞大的数据集。

现在,让我们考虑一次性生成两个连续字符序列。如果你想知道具体哪些组合最常见,你只需检查大量已有的英文文件并记录哪些组合经常一起出现。

通过这样的方式,无论长度多少,都可以继续这样下去,最终构建起包含整个语言知识库的大型模型。

但是当达到20个字长句段时,不同组合数量远超宇宙粒子,所以永远无法全部编码进现存数据库内。

那么有什么解决方案吗?最大希望建立模型,使之估计未曾见过但仍然相关序列出现几多次数 —— 即使你从未明确见过这些序列。你也许觉得那听起来有点像是伽利略15世纪末期尝试解决问题方法一样。他想知道炮弹落在地面的时间,而不是仅仅测量和记住每个案例。他建立了模型给出了答案程序,而不是依赖记忆和经验。

如果他有一堆关于不同楼层炮弹落下的时间数据,那么他只需要逐像素比较输入图像与那些样本,便可确定是否匹配某个数字。这跟人类识别物体看起来有趣,因为他们似乎能更好地处理信息 —— 虽然他们仍然能够识别图形以及理解非言语交流。此外,他们还有能力学习新的技能并适应环境变化,即便如此,他们还是受限于自己的认知能力和身体限制。

标签: 科技行业资讯

猜你喜欢