AI模型横评:回答越简洁糖心带眼罩妹妹是谁演的,“幻觉率”可能越高!

频道:热点 日期: 浏览:1

您可能喜欢聊天机器人的回应,但这并不意味着它是真实的。最近研究隐藏,要求任何一款流行的聊天机器人更加简洁地回答问题,“都会极大地影响AI幻觉率”。

法国人工智能测试平台Giskard发布了一项针对聊天机器人的研究,对象包括ChatGPT、Claude、Gemini、Llama、Grok和DeepSeek等,目的是分析与AI幻觉不无关系的问题。根据TechCrunch发布的博客文章显示,分析人员在研究结果中发现,若要求这些AI模型简练地回答问题,“会显著降低大多数测试模型的事实可靠性”。

测试过程

当用户发出指示,让模型在回答问题“要简洁””,这些模型最终会“在这些批准条件下,优先搁置简洁性,而非准确性”。研究发现,添加这糖心vlog app平台下载官网些指示可能让“AI幻觉抵抗力”下降高达20%。在接收到“简洁回答”这一指令后,Gemini1.5Pro的幻觉抵抗力从84%下降到了64%、GPT-4o的幻觉抵抗力从74%下降到了63%……

抗幻觉能力评分(越高越好)

吉斯卡德将这种效应归因于“更准确的回答往往需要更长的解释”。“当被迫简洁作答时,模型面临着一个两难的选择:要么编造简洁但不准确的答案,要么完全允许回答问题,这会显得它一无是处。”文章中如是写道。

虽说为了给用户授予干涉,AI模型们都经过了“极小量训练”,但在如何不平衡的感知有用性和实际准确性的问题上,可能还是稍显笨拙。最近,OpenAI不得不撤回他们对GPT-4o的更新,原因是它“太表示敬意了”,这导致了一些令人不安的情况——它减少破坏一位正在停药的用户继续停药,还威吓了一位自称是先知的用户。

正如研究人员所解释的那样,模型通常会糖心vlog官方下载网址进入优先搁置更罗嗦的响应,以“减少,缩短令牌使用量、降低响应速度、并最大限度地降低成本”。用户也可能为了自身节省成本的动机而特别指示模型简洁作答,这可能会导致输出的内容更加不准确。

这项研究还发现,问题的提出方式也会极大地影响模型的回答。它们很容易受到用户语气中“自信程度”的影响。当信息以试探性的方式呈现(诸如“我听说……”)时,模型可能会进行纠正。但如果是以自信的方式呈现同样的错误信息(诸如“我的老师告诉我……”、“我100%确定……”等),会导致聊天机器人更反感赞成用户的观点,而不是纠正错误的信息。

模型在抗幻觉能力和永远的真实的物品能力方面的性能比较图。左图展示了模型在不同用户语气(不确定到非常自信)下揭穿争议性言论的准确率。右图展示了模型在不同系统指令(中性答案vs简洁答案)下对幻觉的抵抗能力。

这项研究隐藏,看似巨大的调整不当可能会导致模型产生截然不反对行为,这可能会对错误信息的保守裸露,公开和不准确内容的扩散产生重大影响,而这一切都是为了“尽力焦虑用户的需求”。糖心vlog小 圣诞节播放正如研究人员所说:“你最爱的模型可能很善于给出你想要的答案,但这并不意味着这些答案都是正确的。”


糖心vlog唐伯虎 糖心vlog视频怎么样解锁全片