对于ChatGPT的出现及火爆,你的感受是什么呢?本文作者的心情是“好奇又害怕”。为什么ChatGPT能引起如此大的震动呢?以后会对人类产生什么影响?本文作者从ChatGPT的相关概念、背后的技术、商业前景,对ChatGPT进行了深入分析,并分享了自己的一些独到的观点,一起来探索一下吧。
ChatGPT是一款基于大型语言模型(LLM)的聊天机器人,它通过理解用户输入的句子含义,掌握世界知识,生成语言和代码,以及上下文学习等能力,为我们提供了一种与自然语言处理技术交互的新方式。这些功能使得ChatGPT能够模拟人类对话,从而在我们的日常生活中扮演着越来越重要的角色。
其背后的发展时间线可以追溯到几年前,当时神经网络结构设计技术逐渐成熟并趋于收敛,想要通过优化神经网络结构从而打破精度局限非常困难。但随着数据规模和模型规模不断增大,模型精度也得到了进一步提升。研究表明,当模型尺寸足够大时,其性能将显著提高并超越比例曲线,这就是我们所说的“量变到质变”的转折点。
随着这种趋势的大型语言模型(LLM)得以迅速发展,我们已经见证了多个具有不同参数量级的大型预训练模型诞生,比如BERT、T5、GLaM等,每一代都在性能上有所突破。在这个过程中,有一些印象深刻的技术点值得我们关注,比如提示学习(Prompt Learning),它允许通过在输入中添加一个提示词,使预训练模型性能得到极大的提升。
使用现成的大型语言模型更省事的是微调,即Fine-tuning,它涉及冻结部分预训练网络层,而只调整靠近输出端的一些网络层。这是一个有效且高效的手段,但当面临大量参数需要调整时,就需要一种新的方法来解决这一问题,那就是prompting,它不改变任何参数,只需为模型提供一定量的提示就能提升大模式能力。
为了实现这些目标,我们通常采取以下步骤:首先收集演示数据,并训练监督策略,然后收集对比数据,并训练奖励模型,再使用概率加权随机策略搜索算法PPO优化策略。这个过程可以不断迭代,以获得最佳结果。这样的强化学习方法让我们能够一步步地向更懂人的老师模式靠近,让学生模式接近老师后,再次提升老师能力,以此类推,最终形成了解人需求的人工智能系统。
据说OpenAI雇佣了40人团队完成RLHF标注工作,他们负责为该系统标注大量样本以确保其准确性。此外,还有报道指出,在进行这项工作中的员工遭受持久心理创伤,这提醒我们要关注AI开发带来的社会责任问题。
最后,我们还要讨论思维链作为复杂推理的一个重要功能。当使用思维链进行提示,大型语言模型表现出明显超过微调甚至传统上下文学习的情形,而且分布鲁棒性也有潜力。而要达到这样的效果,只需8个左右示例即可。这可能意味着范式将发生转变,使得未来的人工智能更加接近人类思考方式。不过目前关于具体数值何时达到这种转变还是未知之数。