谁能想到ChatGPT横空出世,而且现在明显是不学习不掌握这些AI工具就要被淘汰的节奏。
因此我经过一番思索,决定顺风而行,后续更新ChatGPT相关内容,目前规划的方向会包括介绍篇的概念性解释,基础篇的日常使用,训练篇的微调数据,以及开发篇的实战开发。
这样既能包括业务用户,也能涵盖低代码甚至专业开发人员。
今天是我们的第一篇ChatGPT的前世今生
本篇文章会从GPT-1一直讲到GPT-4,看一看现在火爆的ChatGPT背后,到底经历了些什么。
我们要想知道ChatGPT为什么爆火,这就要我们静下心来,稍微理解一下NLP领域的一些历史故事。
NLP是自然语言理解的缩写,属于AI人工智能领域的一个分支,主要目的是让计算机能够理解,解释和生成人类的语言。
早在年之前,实际上NLP自然语言理解已经基本处于半废的状态,市面上几乎没有可以说得上的产品存在。这是因为NLP之前缺乏大规模数据集,计算能力,以及有效的算法和模型,导致整体NLP领域发展非常缓慢。
而到了18年6月OpenAI推出了预生成语言模型GPT。
GPT-1
其中GPT第一代,也就是GPT-1使用了本书籍作为训练集,总大小大约5G左右,最关键的是GPT-1是一个生成式预训练语言模型,这种模型通过两个阶段来进行训练,包括先通过无监督模式进行通用语言模型的训练,再针对特殊的下游任务,比如对文本分类,问答等任务进行微调。
虽然通过微调后的GPT-1模型在各个任务上都超过了原有的模型,但这也导致GPT-1使用起来比较麻烦,因为所有的下游任务都需要进行微调。
GPT-2
而到了年2月的GPT-2,它使用了万份文档,大约40GB的数据作为训练集,同时OpenAI为了解决所有任务都需要微调的麻烦,提出了一个叫做zero-shot的概念,也就是训练完的模型不需要做任何微调,不管你的下游任务是什么,模型都可以直接应对。
怎么做到呢?
这里通过的是暗示,或者说提示,也就是告诉模型它需要完成什么任务。
这就像是我们现在在使用ChatGPT的时候,想让它做什么事情,会告诉它,比如你想让他做翻译。
那么就告诉它,请翻译以下句子。这时候把提示“请翻译以下句子”和问题本身一起传入到模型中。模型就知道你要做什么事情了,那不管是翻译,分类,还是其他下游任务,通过GPT-2就完全可以在不用微调的情况下,依然可以应对。
这时候GPT-2的出现,真正的让NLP领域看到了希望,这个希望就是可以通过一个统一的生成式大模型来完成所有下游任务,而不是再像往常一样,每个任务都还需要单独训练模型。
那为什么19年的时候大家没有听说过GPT-2呢?
这主要因为GPT-2虽然有了zero-short的概念,但实现的效果并不理想,生成的内容很可能并不合适,也会有很多虚假的信息,歧视类的信息,甚至是陷入死循环。这是因为GPT-2在训练的过程当中,并不知道哪些信息对人类友好,哪些信息又算作歧视,并且生成内容的多样性做的也不好。
GPT-3
转载请注明:http://www.0431gb208.com/sjszlfa/5997.html