OpenAI秘书开源SimpleQA新基准,专治大模子“妄言连篇”

股票杠杆

杠杆炒股,股票融资!

栏目分类
股票投资

你的位置:股票配资合法吗 > 股票投资 > OpenAI秘书开源SimpleQA新基准,专治大模子“妄言连篇”

OpenAI秘书开源SimpleQA新基准,专治大模子“妄言连篇”

发布日期:2024-11-01 14:08    点击次数:171

SimpleQA将是一个简便但具有挑战性的基准,用于评估前沿模子的事实准确性。点击收听本新闻听新闻

IT之家 10 月 31 日音书,当地时刻 30 日,OpenAI 秘书,为了推断谈话模子的准确性,将开源一个名为 SimpleQA 的新基准,可推断谈话模子回应简略的事实寻求(fact-seeking)问题的技艺。

AI 限度中的一个洞开性阻止是如何考试模子生成事实正确的回应。面前的谈话模子巧合会产生虚假输出或未经阐述的谜底,这一问题被称为“幻觉”。好像生成更准确、更少幻觉的回应的谈话模子更为可靠,不错用于更常常的诳骗限度。

OpenAI秘书开源SimpleQA新基准,专治大模子“妄言连篇”

OpenAI 默示,方针是使用 SimpleQA 创建一个具备以下特质的数据集:

高正确性:问题的参考谜底由两名寂寞的 AI 考试师考据,以确保评分的公谈性。

千般性:SimpleQA 涵盖常常主题,从科学技巧到电视节目与电子游戏应有尽有。

前沿挑战性:与 TriviaQA(2017 年)或 NQ(2019 年)等早期基准比拟,SimpleQA 更具挑战性,股票配资合法吗尤其针对如 GPT-4o 等前沿模子(举例,GPT-4o 的得分不及 40%)。

高效劳户体验:SimpleQA 问题与谜底破坏明了,使操作快速高效,并可通过 OpenAI API 等进行快速评分。此外,包含 4326 谈问题的 SimpleQA 在评估中应具有较低的方差。

SimpleQA 将是一个简便但具有挑战性的基准,用于评估前沿模子的事实准确性。SimpleQA 的主要步骤在于其鸿沟 —— 尽管 SimpleQA 准确,但它只在短查询的受限建设中测量事实准确性,这些查询是事实导向的,何况有一个可考据的谜底。

OpenAI 默示,模子在短回应中发扬出的事实性是否与其在长篇、多事实履行中的发扬关系,这依然个悬而未决的盘问课题。其但愿 SimpleQA 的开源好像进一步推进 AI 盘问的发展,使模子愈加着实并富饶可靠性。



上一篇:要起先?好意思互撕大战再升级,背后金主下场,拜登:把特朗普关

下一篇:没有了

Powered by 股票配资合法吗 @2013-2022 RSS地图 HTML地图

建站@kebiseo;2013-2022 万生配资有限公司 版权所有