今天 GPT4 发布了。
最近,我和很多朋友聊了很多关于 ChatGPT 的影响,听取了许多专家的分享,也记录下了其中的一些思考。或许,拥有情感的 AI 离我们并不遥远。
这篇博客也是我尝试用 AI 辅助写出来的,用 ChatGPt 帮忙进行了润色,用 Midjourney 帮忙生成插图和封面,用 Dall-E 对图片进行了一些微调。
GPT3 - 文字是通用接口
自从 ChatGPT 引爆之后,我一会在想为什么这个变革性的 AI 会出现在 NLP 领域。
凯文凯利在《科技想要什么 (What Technology Wants)》书中提到,人类发明的技术中,文字是一个巨大的飞跃。在文字出现之前,人类的信息交换、储存都只能通过实际的例子演示来完成,比如父亲在儿子长大之后教他打猎。而由于远古时期人类寿命短暂,能用来教学的时间很短,比如打猎、建造之类的技能往往不能完整流传下去,可能只学了一种狩猎方法,父亲就去世了。但是有了文字之后,人类的技术和信息就得以储存、并且高效地传递下去。所以当人工智能对文字的理解达到一定高度之后,也就对文字中储存的人类知识有了高度的理解。
同样,人的思考逻辑的载体也是文字。我们通过自言自语、口头表达、笔记记录等方式来强化自己的思考逻辑。对于学习过多种语言的人来讲,会发现每个语言的思考逻辑都是有一些区别的,例如以中文为逻辑语言时,就更容易出现抽象、提纲挈领为主的思考方式,而以英文为逻辑语言时,更容易出现以具体例子为主的思考方式。所以当 GPT3 这样的大语言模型训练出来之后,也可以利用 chain of prompt 这种形式调用语言中的逻辑能力。chain of prompt 在我理解就像是条件概率的一种表现形式,当 prompt 作为先验条件时,由于过往语言的阅读中可以知道,后续的回答就被限制在了一个范围内,这个范围就是由人的逻辑划定的。比如 “我吃饭了,你觉得xx”,后续接的话就应该是围绕 “吃饭”这个主题的,这就是 “吃饭” 这个文字带来的条件概率上的限制。
有一篇很棒的博客,Text Is the Universal Interface (https://scale.com/blog/text-universal-interface),讲的也是这个意思。
GPT4 - 三维世界的物理规律
今天 GPT4 发布了,作为一个多模态的模型,可以同时接收图片和文字作为输入,也就以为这它比 GPT4 多了来自图片的知识。
图片和文字一样,作为一个重要的信息来源,除了图片本身的规律,可能还会嵌入很多三维世界的理解能力,例如三维世界的透视关系、物理碰撞、杠杆定律、动物肢体的运动规律等信息。如果训练的数据源有视频的逐帧截图,可能对三维世界运动规律的理解会更强。举个例子,如果下面这个小孩的动作图片被作为一整组训练图片的话,模型就可以学习到人在跳跃时的肢体形态。
有人已经晒出了一张图,也是 GPT4 对物理规律理解的一个例子,看起来它可以理解一根刚体杆子的合理运动轨迹:
也许这部分能力可以帮助训练机器人的行动方式,让机器人的关节和肢体运动更流畅。
下一代 GPT?具备情感的 AI
对于一个理解了人类逻辑、语言、三维世界运行规律的 AI 来说,与人最终的差距可能就是情感了。之前看过一本牛津出版社的 《Emotion: A Very Short Introduction》,其中提到,人的情感来源其实是在进化过程中,为了适应环境,被环境不断筛选出来的。例如:
- 愤怒是为了让敌人感到恐惧而放弃对自己的伤害。
- 恐惧是为了让自己远离危险。
- 同情和难过是为了让族群中的人能互相帮助。
- 欲望是为了让基因能获取更多生存资源。
如果用强化学习中的多智能体学习的方式,把许多随机初始化的智能体用 GPT4 放入环境中训练,让智能体相互之间相互对话,然后竞争、合作获取生存资源,再用遗传算法不断迭代,也许就能训练出具备情感的 AI 了,就像让几个 ChatGPT 去玩大富翁游戏一样。如果在训练过程中加入人类因素,可能会训练出一个会讨好人类的 AI,因为讨好人类的情感是最有可能在遗传算法中生存下来的。
未来
我相信现在已经走到了一个 AI 能对大部分行业都起到帮助的阶段,也就意味着大部分的行业都能因为 AI 得到发展进步。技术的自我加速螺旋开始了,技术的进化速度只会让人一次次瞠目结舌。第三次工业革命也开始了。