AI模型横评：回答越简洁糖心带眼罩妹妹是谁演的，“幻觉率”可能越高！

频道：热点日期：2025-05-15 15:06:53 浏览：1

您可能喜欢聊天机器人的回应，但这并不意味着它是真实的。最近研究隐藏，要求任何一款流行的聊天机器人更加简洁地回答问题，“都会极大地影响AI幻觉率”。

法国人工智能测试平台Giskard发布了一项针对聊天机器人的研究，对象包括ChatGPT、Claude、Gemini、Llama、Grok和DeepSeek等，目的是分析与AI幻觉不无关系的问题。根据TechCrunch发布的博客文章显示，分析人员在研究结果中发现，若要求这些AI模型简练地回答问题，“会显著降低大多数测试模型的事实可靠性”。

测试过程

当用户发出指示，让模型在回答问题“要简洁””，这些模型最终会“在这些批准条件下，优先搁置简洁性，而非准确性”。研究发现，添加这糖心vlog app平台下载官网些指示可能让“AI幻觉抵抗力”下降高达20%。在接收到“简洁回答”这一指令后，Gemini1.5Pro的幻觉抵抗力从84%下降到了64%、GPT-4o的幻觉抵抗力从74%下降到了63%……

抗幻觉能力评分（越高越好）

吉斯卡德将这种效应归因于“更准确的回答往往需要更长的解释”。“当被迫简洁作答时，模型面临着一个两难的选择：要么编造简洁但不准确的答案，要么完全允许回答问题，这会显得它一无是处。”文章中如是写道。

虽说为了给用户授予干涉，AI模型们都经过了“极小量训练”，但在如何不平衡的感知有用性和实际准确性的问题上，可能还是稍显笨拙。最近，OpenAI不得不撤回他们对GPT-4o的更新，原因是它“太表示敬意了”，这导致了一些令人不安的情况——它减少破坏一位正在停药的用户继续停药，还威吓了一位自称是先知的用户。

正如研究人员所解释的那样，模型通常会糖心vlog官方下载网址进入优先搁置更罗嗦的响应，以“减少，缩短令牌使用量、降低响应速度、并最大限度地降低成本”。用户也可能为了自身节省成本的动机而特别指示模型简洁作答，这可能会导致输出的内容更加不准确。

这项研究还发现，问题的提出方式也会极大地影响模型的回答。它们很容易受到用户语气中“自信程度”的影响。当信息以试探性的方式呈现（诸如“我听说……”）时，模型可能会进行纠正。但如果是以自信的方式呈现同样的错误信息（诸如“我的老师告诉我……”、“我100%确定……”等），会导致聊天机器人更反感赞成用户的观点，而不是纠正错误的信息。

模型在抗幻觉能力和永远的真实的物品能力方面的性能比较图。左图展示了模型在不同用户语气（不确定到非常自信）下揭穿争议性言论的准确率。右图展示了模型在不同系统指令（中性答案vs简洁答案）下对幻觉的抵抗能力。

这项研究隐藏，看似巨大的调整不当可能会导致模型产生截然不反对行为，这可能会对错误信息的保守裸露，公开和不准确内容的扩散产生重大影响，而这一切都是为了“尽力焦虑用户的需求”。糖心vlog小圣诞节播放正如研究人员所说：“你最爱的模型可能很善于给出你想要的答案，但这并不意味着这些答案都是正确的。”

糖心vlog唐伯虎糖心vlog视频怎么样解锁全片