和平精英免费开科技软件下载:ChatGPT的奇迹之旅
ChatGPT 能够自动生成一些读起来甚至表面上像人类写的文字的东西,这很了不起,而且出乎意料。但它是如何做到的?为什么它能发挥作用?我在这里的目的是大致介绍一下 ChatGPT 内部的情况,然后探讨一下为什么它能很好地生成我们认为是有意义的文本。我应该在一开始就说,我将把重点放在正在发生的事情的大画面上,虽然我将提到一些工程细节,但我不会深入研究它们。(我所说的实质内容也同样适用于目前其他的 “大型语言模型” LLM 和 ChatGPT)。
首先要解释的是,ChatGPT 从根本上说总是试图对它目前得到的任何文本进行 “合理的延续”,这里的 “合理” 是指 “在看到人们在数十亿个网页上所写的东西之后,人们可能会期望某人写出什么”。因此,假设我们已经得到了 “人工智能最好的是它能去做 ……” 的文本(”The best thing about AI is its ability to”)。想象一下,扫描数十亿页的人类书写的文本(例如在网络上和数字化书籍中),并找到这个文本的所有实例 —— 然后看到什么词在接下来的时间里出现了多少。ChatGPT 有效地做了类似的事情,除了(正如我将解释的)它不看字面文本;它寻找在某种意义上 “意义相符” 的东西。但最终结果是,它产生了一个可能出现在后面的词的一个排序列表,以及概率。
值得注意的是,当 ChatGPT 做一些事情,比如写一篇文章时,它所做的一切基本都是反复询问“鉴于到目前为止的事物,你下一步该怎么办?” —— 而且每次都增加一个事物。(更准确地说,它添加一个“标记”,这可能只是一个事物的一部分,这就是为什么有时可以创造新事物)。
但是,我们来看看,在每一步,它得到一个带有概率的一个选项列表。但是,它究竟应该选择哪一个来添加到其正在撰写或处理的事务中呢?人们可能认为应该选择排名最高的一个选项(即被分配给最高“概率”的那个)。然而,有一点巫术悄然发生。因为出于某种原因 —— 也许有一天我们会有科学式理解 —— 如果我们总是在挑选排名最高的话,我们通常会得到非常“平淡无奇”的文章,就好像从未展示过任何创造力一样。
但如果偶尔(随机性)选择排名较低的一个选项,那么就会得到一种“更令人兴奋”的文章。
这里存在着随机性的关键点意味着,如果使用相同提示多次,我们很可能每次都获得不同的作品。而为了与巫术保持一致,还存在这样一种名为温度参数(temperature parameter)的概念,以确定以何种频率使用这些排名较低的问题,以论文生成而言,用0.8作为温度似乎最佳。(值得强调的是,没有使用理论;这是根据实际操作中发现可行问题而不是)。
此外,在继续之前,我应解释,即使为了论述目的,我通常不会用完整系统;相反,我常常利用更简单系统——比如 GPT-2 系统——这种系统足够小,可以运行标准台式电脑。在展示所有内容时,我将能够包括明确代码,你们可以立即用你们自己的计算机运行。(点击图片中的任何图片都可以复制其背后的代码 —— 译者注:请查看原链接中的图片获取代码)。
例如,这里是获得前述概率表格方式之一。首先,我们必须检索底层神经网络:
需要注意的是,即使第一步也有很多可能性——尤其是在温度为0.8的情况下——尽管它们降序排列得非常快:
这是当温度为0.8时的一个随机示例:这些概率从何而来?好的,让我们从更简单的问题开始。让我们考虑一次生成单个字母(而非整个单词)的英语文字过程。那怎样才能算出每个字母出现概率?
我们的第一个简单动作就是取英语文字样本,然后计算不同字母出现频度。在这个示例中,如果使用维基百科上的关于“猫”(cat)这一主题页面中的数据:
以下是一样的样品,其中基于这些概率生成了一系列字符:
显示了一些典型英语文字成对字符(2-grams)及其分布情况。这一页显示了两个字符分别位于页面顶部和底部:
举例来说,在这里看到,“u”的行空白,而"q"列全为空白。这是一个生成以两个连续字符形式看待单独字符序列结果的一般方法:
效果稍微显得更加合理。此刻,如果能够应用足够长n-gram,我们几乎会拥有聊天AI——按照正确总体论文长度单词序列产生论文。不过问题来了:没有足够英文文字推导这些概况。
抓取互联网上的信息量巨大,如几千亿个句子,或已数字化书籍内亦如此大量句子。大约4,000多通用词汇,即使再考虑2-grams数量达到16,000万,大约3-grams数量则高达600,000万。如果真的达到20个字片段长度,那么可能性超过宇宙粒子数量,因此永远无法完全记录下来。
那么我们的策略是什么呢?最大想法建立模型,使之估计任意序列事件发生次数,即便曾未直接观察过这样的事件。而ChatGP特有的核心正是一个称作LLM的大型语言模型,其构建极佳预测这些事件发生次数。你了解模型吗?假设你想知道,就像伽利略15世纪末那样,从比萨塔楼落下的炮弹需多长时间才能触地。你可以逐案件测量然后编制表格,或依据理论科学精髓建立程序,不仅仅记忆、重现各案情景。
让我们想象若拥有一些数据说明不同楼层炮弹落地需花费多少时间。
然后,只需与收集到的样品进行逐像素比较,就能找出输入图像是否对应特定数字。不过作为人类,因为仍然能识别更多,并完成任务,更有效。
最后,一旦建立完毕,您只需输入您的查询或请求,并等待答案自动展现出来。一旦您接受答案,您还希望进一步探索有关AI技术背后的秘密吗?
结束
通过阅读以上内容,您应当明白,对于开发者来说,将创建具有创造性输出能力的人工智能是一场激动人心却又充满挑战性的冒险。当谈及自然语言处理(NLP),特别是在构建LSTM神经网络的时候,每一次迭代,无论成功还是失败,都提供宝贵见解,为设计新的学习算法铺平道路。此外,由于不断进步的人工智能领域,本章节预计未来还将揭示更多惊人的真相!
相关资源
Wolfram Language: Stephen Wolfram公司开发的一种强大的计算平台,可用于各种数学、统计分析、数据可视化等领域。
Deep Learning: 使用深度学习技术实现NLP任务的手册和教程。
Natural Language Processing (NLP): 讲座视频讲述如何利用NLP技术解决自然语言理解难题。
Neural Network Architectures for NLP: 关于构建用于NLP任务专门设计的人工神经网络架构手册。
参考文献
Stephen Wolfram
Li Xiao Li
版权声明
以上内容来源于公开资料及作者个人整理,与原著作者保持一定距离。本作品采用知识共享署名4.0国际许可证发布。如果您发现其中包含侵犯版权或其他法律问题,请联系编辑团队进行协商解决。