{{ v.name }}
{{ v.cls }}类
{{ v.price }} ¥{{ v.price }}
随着时间的流逝,AI聊天机器人的可用性问题似乎已经成为了全球用户的普遍困扰。例如,微软的Bing Chat虽然拥有GPT-4的支持并开启了创造力模式,但仍然经常回避问题或无法给出回答。在海外社交媒体Reddit上,许多用户抱怨Bing Chat变得乏味无趣,回答的内容不再幽默有趣,给人一种冷漠无情、缺乏人性的感觉。
更令人惊讶的是,当有用户试图让Bing Chat演绎一个虚构人物时,尽管相关讨论是无害的,但Bing Chat却认为这是有风险的行为。微软已经承认了Bing Chat性能下降的问题,并在回复中表示正在积极监测用户的反馈,并计划在不久的将来做出改变以解决相关问题。
自今年2月初内测以来,New Bing经历了几次更新,从最初的“牛Bing”到后来被“赛博阉割”成“New病”,再到现在提供精准、平衡、创造力三种模式。微软一直在努力打造一款能够满足所有人需求的AI大模型。然而,现在看来似乎有些适得其反。ChatGPT这类大型语言模型之所以能够在2022年秋季开始走红,在AI热潮退去之后重新点燃外界对其未来的热情,是因为ChatGPT比以往任何同类产品都更智能,或者说更像人。
1.类似的情况也发生在ChatGPT上,用户开始抱怨其速度变慢、回复冗长重复、聊天主题单一无趣等问题。实际上,这种聊天机器人产品性能下降并非孤立事件,在多家厂商的LLM中都有发生。
业界早已关注到这一现象。例如,为了验证ChatGPT的行为如何随时间变化,斯坦福大学和加州大学伯克利分校的研究人员测试了GPT-4在今年3月和6月的两个版本,测试内容涉及数学问题、敏感问题回答、代码生成和视觉推理四个部分。
最终的测试结果显示了ChatGPT能力的衰减。例如,在数学和视觉推理方面,研究人员采用了思维链(chain-of-thought,CoT)技术,让LLM模拟人类思考过程,并帮助其生成推理路径。他们将复杂的推理问题分解为多个简单的步骤,而不仅仅只是从语料库中直接拟合出最终答案。
而在视觉推理方面,6月的GPT-4在部分此前在3月曾正确回答的查询上,反而又出现了错误。即对于3月能给出正确结果的问题,6月反而就做不到了。通常情况下,事物的发展往往呈现出螺旋式上升的趋势。在信息技术领域,这种趋势更加明显,可以说是跨越式的前进。因此,将“今不如古”的情况视为绝无仅有的特殊情况并不准确。然而,如果我们考虑到科研中出现“考古式研究”的情况,只有一种可能的解释是该行业曾经经历过崩溃,并在重建过程中重新崛起。但是,AI大模型作为纯粹的前沿科技,不存在类似的问题。因此,其中肯定存在一些不寻常的因素。
2.目前在网络上,主流观点认为ChatGPT和Bing Chat能力下降是为了平衡用户体验。这是因为ChatGPT生成的内容需要消耗大量算力,而用户数量的增加导致算力的增长速度跟不上用户增长,进而影响了响应速度。因此,降低性能来提升响应速度成为了一种解决方案。
然而,更深层次的核心矛盾在于AI伦理问题。数月前,AI可能给人类带来灭绝风险的担忧引起了广泛关注,甚至让OpenAI创始人奥特曼走上美国参议院听证会,并在全球各地进行演讲。人们担心不受控制的AI可能会成为毁灭人类文明的罪魁祸首,这无疑是科幻小说的一个重要题材。因此,对于AI失控的担忧也是自技术诞生以来一直存在的难题。
为了解决这一问题,出现了一个概念叫做“AI对齐”,即要求AI系统的目标要与人类的价值观和利益对齐,使其符合设计者的利益预期,并避免产生意外的有害后果,比如生成不当言论等内容。事实上,微软、OpenAI等企业都意识到了AI对齐的重要性。例如,微软在2016年发布的聊天机器人Tay就曾出现过发表种族歧视内容的情况,这也导致了它的失败。
3.然而,让AI遵守人类的价值观本身就是一个反直觉的事情。要实现AI与人类的对齐,开发者需要指定正确的目标函数,并确定应该提供什么样的反馈来正确地引导AI。此外,还需要证明提供这些反馈是合理的,这无疑是一个难以解决的技术难题。
那么,如果一个人想要停止胡思乱想并纠正其思维模式,最直接的方式是什么?当然是像诺贝尔奖中的前脑叶白质切除术一样,直接从物理层面消灭人类的思维能力。同样地,在AI领域也需要类似的干预措施。微软研究院发布的一篇论文证实,对AI大模型进行任何形式的AI对齐行为都会损失其准确性和性能。这是因为ChatGPT等产品是基于人类反馈的强化学习构建的智能系统,人工干预的AI对齐会阻碍大模型对任务真实理解的程度。因此,AI大模型的性能往往呈现出开局即巅峰的情况。
然而,无论是算力紧张还是AI伦理限制,这些问题在短时间内几乎都是无解的。因此,用户体验高开低走也是不可避免的。相关企业很难解决这个问题。