涌现不可控和间接对齐=失控的机器现在让我们深入了解一下这些大语言模型的具体内容及其不同之处。再说一次。有人用电来比喻AI的使用,但如果我把通过系统输送更多的电能,它并不会弹出一些其他新出现的智能,一些之前甚至不存在的能力,对吧?所以,我们必须理解这种新类型的生成式大语言模型AI与众不同的地方,这是与专家交谈后真正令人惊讶的事情之一,他们说,我们也不理解这些模型如何出现,何时出现或为什么出现这些能力。再说一次,这不是我们面对旧类型的AI会说的话。举个例子,这是两种不同的模型,GPT和Google的另一种模型(Bert),这两种模型没有差别,它们只是参数大小增加,也就是说,它们只是变大了。参数实际上就是矩阵中的权重数量,可以理解为只是增加了事物的规模。我们要求这些AI进行算术运算,但是它们无法进行,它们无法进行,然后突然之间,它们就获得了进行算术运算的能力,没有人可以实际预测这将在何时发生。这里还有另一个例子,你知道,我们在整个互联网上训练这些模型,所以它已经见过许多不同的语言,但然后你只训练它们用英语回答问题,所以它学会了用英语回答问题;然后我们增加模型大小,增加模型大小,然后突然之间,它开始能够用波斯语进行问答。没有人知道为什么。这里还有另一个例子,AI的心智理论(theory of mind)。心智理论是能够理解别人在想什么的能力,这种能力启发了战略思维。在2018年,GPT几乎没有心智理论,在2019年几乎没有心智理论,在2020年开始发展像4岁孩子的战略水平,2022年1月,发展了像7岁孩子的战略水平,去年11月,几乎达到9岁孩子的战略水平。现在,真正让人毛骨悚然的是,我们只是上个月发现AI获得了这种能力,它已经出来两年了,两年了!这些模型在交流方式和与你战略互动的能力等等各方面的能力正在以这样的(指数)曲线上升,它从一个7岁的孩子变成一个9岁的孩子,它的心智理论在11个月里提高了2年。它也许可能会停止发展,也许可能会有人工智能的冬天,但目前,我们正在泵送更多的东西,让AI获得更多和更多的能力,这与(以前的)其他AI系统的扩展方式非常不同。同样重要的是,AI研究人员发现,使AI表现良好的最佳系统是reinforcement learning with human feedback(RLHF,即OpenAI发现的人类反馈强化学习技术),本质上就是像训练狗一样,是高级的点击反馈培训。想象一下,试图对一个9岁的孩子进行点击式的训练或在鼻子上轻拍式训练。。。一旦你离开房间,他们会做什么? 他们不会做你要求他们做的事情,所以AI这里的情况是一样的,对吧?我们知道如何在短期内帮助AI实现一致(AI alignment),但我们不知道如何在更长期内使其一致,这方面没有研究。让我们听听谷歌AI的负责人Jeff Dean怎么说的。他说,尽管有几十个新出现的能力的例子,但目前几乎没有令人信服的解释来说明为什么会出现这些能力。所以,您不必相信我们的话,(听专家的)没有人知道。再举一个例子,我相信这只是上周发现的。大语言模型已经默默地教会自己研究级化学知识。如果您现在去玩ChatGPT, 会发现它在进行研究化学方面, 已经比许多专门用于研究化学的AI更强大。如果您想知道如何去Home Depot购买东西,然后从中制造神经气体, ChatGPT就可能告诉你。我们将这种能力发送给了超过100亿人,我们并不知道这也是模型中的东西。只是在它被投入使用后,人们后来才发现,原来它具有研究级的化学知识。正如我们与许多VAR研究人员的交谈,他们告诉我们,我们没有技术和方法来了解这些模型中还有什么。所以,有新出现的能力,但我们不理解里面的东西,我们也没有技术来理解里面的东西。RECOMMEND