人类对谷歌：谁能战胜人工智能幻觉？-FebHost

人类对谷歌：谁能战胜人工智能幻觉？

面向企业应用的生成式人工乐虎国际手机版下载领先开发商 Galileo 发布了最新的幻觉指数（Hallucination Index）。

该评估框架以检索增强生成（RAG）为重点，评估了来自 OpenAI、Anthropic、谷歌和 Meta 等主要公司的 22 个著名 Gen AI LLM。今年的指数大幅扩展，增加了 11 个新模型，以反映过去八个月中开放和闭源 LLM 的快速增长。

伽利略公司首席执行官兼联合创始人维克拉姆-查特吉（Vikram Chatterji）说： "在当今快速发展的人工智能领域，开发人员和企业面临着一个严峻的挑战：如何在平衡成本、准确性和可靠性的同时利用生成式人工智能的力量。目前的基准往往基于学术用例，而非现实世界的应用。"

该指数采用了伽利略专有的评估指标--上下文一致性（context adherence），以检查不同输入长度（从 1,000 到 100,000 个代币不等）下的输出不准确性。这种方法旨在帮助企业在人工智能实施过程中平衡价格和性能，做出明智的决策。

该指数的主要发现包括

该指数还突显了 LLM 领域的几大趋势：

美国以外的强势公司的出现，如 Mistral 的 Mistral-large 和阿里巴巴的 qwen2-72b-instruct，表明 LLM 开发的全球竞争日益激烈。

虽然 Claude 3.5 Sonnet 和 Gemini 1.5 Flash 等闭源模型因拥有专有训练数据而保持领先地位，但该指数显示出这一领域正在迅速发展。谷歌的表现尤其值得关注，其开源 Gemma-7b 模型表现不佳，而其闭源 Gemini 1.5 Flash 一直排名靠前。

随着人工智能行业继续努力解决幻觉问题，将其作为生产就绪的新一代人工智能产品的主要障碍，伽利略的幻觉指数为企业提供了宝贵的见解，帮助企业根据自身的具体需求和预算限制采用合适的模型。

文章相关标签： 谷歌人工智能幻觉人工智能