OpenAI秘书开源SimpleQA新基准，专治大模子“妄言连篇”

发布日期：2024-11-01 14:08 点击次数：178

SimpleQA将是一个简便但具有挑战性的基准，用于评估前沿模子的事实准确性。点击收听本新闻听新闻

IT之家 10 月 31 日音书，当地时刻 30 日，OpenAI 秘书，为了推断谈话模子的准确性，将开源一个名为 SimpleQA 的新基准，可推断谈话模子回应简略的事实寻求（fact-seeking）问题的技艺。

AI 限度中的一个洞开性阻止是如何考试模子生成事实正确的回应。面前的谈话模子巧合会产生虚假输出或未经阐述的谜底，这一问题被称为“幻觉”。好像生成更准确、更少幻觉的回应的谈话模子更为可靠，不错用于更常常的诳骗限度。

OpenAI 默示，方针是使用 SimpleQA 创建一个具备以下特质的数据集：

高正确性：问题的参考谜底由两名寂寞的 AI 考试师考据，以确保评分的公谈性。

千般性：SimpleQA 涵盖常常主题，从科学技巧到电视节目与电子游戏应有尽有。

前沿挑战性：与 TriviaQA（2017 年）或 NQ（2019 年）等早期基准比拟，SimpleQA 更具挑战性，股票配资合法吗尤其针对如 GPT-4o 等前沿模子（举例，GPT-4o 的得分不及 40%）。

高效劳户体验：SimpleQA 问题与谜底破坏明了，使操作快速高效，并可通过 OpenAI API 等进行快速评分。此外，包含 4326 谈问题的 SimpleQA 在评估中应具有较低的方差。

SimpleQA 将是一个简便但具有挑战性的基准，用于评估前沿模子的事实准确性。SimpleQA 的主要步骤在于其鸿沟 —— 尽管 SimpleQA 准确，但它只在短查询的受限建设中测量事实准确性，这些查询是事实导向的，何况有一个可考据的谜底。

OpenAI 默示，模子在短回应中发扬出的事实性是否与其在长篇、多事实履行中的发扬关系，这依然个悬而未决的盘问课题。其但愿 SimpleQA 的开源好像进一步推进 AI 盘问的发展，使模子愈加着实并富饶可靠性。