发布日期:2024-11-01 14:08 点击次数:173
IT之家 10 月 31 日音书,当地时刻 30 日,OpenAI 秘书,为了推断谈话模子的准确性,将开源一个名为 SimpleQA 的新基准,可推断谈话模子回应简略的事实寻求(fact-seeking)问题的技艺。
AI 限度中的一个洞开性阻止是如何考试模子生成事实正确的回应。面前的谈话模子巧合会产生虚假输出或未经阐述的谜底,这一问题被称为“幻觉”。好像生成更准确、更少幻觉的回应的谈话模子更为可靠,不错用于更常常的诳骗限度。
OpenAI 默示,方针是使用 SimpleQA 创建一个具备以下特质的数据集:
高正确性:问题的参考谜底由两名寂寞的 AI 考试师考据,以确保评分的公谈性。
千般性:SimpleQA 涵盖常常主题,从科学技巧到电视节目与电子游戏应有尽有。
前沿挑战性:与 TriviaQA(2017 年)或 NQ(2019 年)等早期基准比拟,SimpleQA 更具挑战性,股票配资合法吗尤其针对如 GPT-4o 等前沿模子(举例,GPT-4o 的得分不及 40%)。
高效劳户体验:SimpleQA 问题与谜底破坏明了,使操作快速高效,并可通过 OpenAI API 等进行快速评分。此外,包含 4326 谈问题的 SimpleQA 在评估中应具有较低的方差。
SimpleQA 将是一个简便但具有挑战性的基准,用于评估前沿模子的事实准确性。SimpleQA 的主要步骤在于其鸿沟 —— 尽管 SimpleQA 准确,但它只在短查询的受限建设中测量事实准确性,这些查询是事实导向的,何况有一个可考据的谜底。
OpenAI 默示,模子在短回应中发扬出的事实性是否与其在长篇、多事实履行中的发扬关系,这依然个悬而未决的盘问课题。其但愿 SimpleQA 的开源好像进一步推进 AI 盘问的发展,使模子愈加着实并富饶可靠性。