面向企业应用的生成式人工乐虎国际手机版下载领先开发商 Galileo 发布了最新的幻觉指数(Hallucination Index)。
该评估框架以检索增强生成(RAG)为重点,评估了来自 OpenAI、Anthropic、谷歌和 Meta 等主要公司的 22 个著名 Gen AI LLM。今年的指数大幅扩展,增加了 11 个新模型,以反映过去八个月中开放和闭源 LLM 的快速增长。
伽利略公司首席执行官兼联合创始人维克拉姆-查特吉(Vikram Chatterji)说: "在当今快速发展的人工智能领域,开发人员和企业面临着一个严峻的挑战:如何在平衡成本、准确性和可靠性的同时利用生成式人工智能的力量。目前的基准往往基于学术用例,而非现实世界的应用。"
该指数采用了伽利略专有的评估指标--上下文一致性(context adherence),以检查不同输入长度(从 1,000 到 100,000 个代币不等)下的输出不准确性。这种方法旨在帮助企业在人工智能实施过程中平衡价格和性能,做出明智的决策。
该指数的主要发现包括
该指数还突显了 LLM 领域的几大趋势:
美国以外的强势公司的出现,如 Mistral 的 Mistral-large 和阿里巴巴的 qwen2-72b-instruct,表明 LLM 开发的全球竞争日益激烈。
虽然 Claude 3.5 Sonnet 和 Gemini 1.5 Flash 等闭源模型因拥有专有训练数据而保持领先地位,但该指数显示出这一领域正在迅速发展。谷歌的表现尤其值得关注,其开源 Gemma-7b 模型表现不佳,而其闭源 Gemini 1.5 Flash 一直排名靠前。
随着人工智能行业继续努力解决幻觉问题,将其作为生产就绪的新一代人工智能产品的主要障碍,伽利略的幻觉指数为企业提供了宝贵的见解,帮助企业根据自身的具体需求和预算限制采用合适的模型。
上一条: 阿里巴巴利用云和人工智能服务改造奥运转播
下一条: 美国联邦拨款700万美元资助网络安全