资讯公告
人类对谷歌:谁能战胜人工智能幻觉?
发布时间:2024-07-30 发布者:FebHost

人类对谷歌:谁能战胜人工智能幻觉?


面向企业应用的生成式人工乐虎国际手机版下载领先开发商 Galileo 发布了最新的幻觉指数(Hallucination Index)。


该评估框架以检索增强生成(RAG)为重点,评估了来自 OpenAI、Anthropic、谷歌和 Meta 等主要公司的 22 个著名 Gen AI LLM。今年的指数大幅扩展,增加了 11 个新模型,以反映过去八个月中开放和闭源 LLM 的快速增长。


伽利略公司首席执行官兼联合创始人维克拉姆-查特吉(Vikram Chatterji)说: "在当今快速发展的人工智能领域,开发人员和企业面临着一个严峻的挑战:如何在平衡成本、准确性和可靠性的同时利用生成式人工智能的力量。目前的基准往往基于学术用例,而非现实世界的应用。"


该指数采用了伽利略专有的评估指标--上下文一致性(context adherence),以检查不同输入长度(从 1,000 到 100,000 个代币不等)下的输出不准确性。这种方法旨在帮助企业在人工智能实施过程中平衡价格和性能,做出明智的决策。


该指数的主要发现包括


  • Anthropic 的 Claude 3.5 Sonnet 成为整体表现最佳的模型,在短期、中期和长期情境中的得分一直接近满分。
  • 谷歌的 Gemini 1.5 Flash 是性价比最高的机型,在所有任务中都表现出色。
  • 阿里巴巴的 Qwen2-72B-Instruct 是最优秀的开源模型,在中短文本场景中表现尤为突出。


该指数还突显了 LLM 领域的几大趋势:


  • 开源模型正在迅速缩小与闭源模型的差距,以更低的成本提供更好的幻觉性能。
  • 当前的 RAG LLM 在处理扩展上下文长度方面有了显著改进,但并未牺牲质量或准确性。
  • 较小的模型有时会优于较大的模型,这表明高效的设计可能比规模更重要。


美国以外的强势公司的出现,如 Mistral 的 Mistral-large 和阿里巴巴的 qwen2-72b-instruct,表明 LLM 开发的全球竞争日益激烈。


虽然 Claude 3.5 Sonnet 和 Gemini 1.5 Flash 等闭源模型因拥有专有训练数据而保持领先地位,但该指数显示出这一领域正在迅速发展。谷歌的表现尤其值得关注,其开源 Gemma-7b 模型表现不佳,而其闭源 Gemini 1.5 Flash 一直排名靠前。


随着人工智能行业继续努力解决幻觉问题,将其作为生产就绪的新一代人工智能产品的主要障碍,伽利略的幻觉指数为企业提供了宝贵的见解,帮助企业根据自身的具体需求和预算限制采用合适的模型。

文章相关标签: 谷歌 人工智能幻觉 人工智能
购物车