原文:Microsoft's Free AI Just Beat OpenAI and Google at Browsing the Web

将 Decrypt 添加为您的首选来源,以便在 Google 上查看我们的更多故事。

简而言之,Fara1.5-27B 在 Online-Mind2Web 上的得分为 72%,击败了 OpenAI Operator (58.3%) 和 Gemini 2.5 Computer Use (57.3%)。

这些模型是开放权重的,有 40 亿、90 亿和 270 亿个参数大小,并且基于经过微调的 Qwen 3.5 构建。

Fara1.5-9B 现已在 Azure AI Foundry 上上线; 4B 和 27B 即将到达。

想象一下,告诉你的计算机查找度假出租屋,比较五个站点,填写预订表格,并确认距离海滩最近的一个。你去煮咖啡吧。当你回来时就完成了。这就是“计算机使用代理”的承诺——人工智能可以像人类一样读取浏览器屏幕并点击、滚动和打字,不需要特殊的插件。

OpenAI 首先在 Operator 上进行了尝试,于 2025 年 1 月推出,每月 200 美元,然后并入 ChatGPT Agent 并于 8 月关闭。 Google 有 Gemini 2.5 计算机使用。两者都是专有的、基于云的且运行成本昂贵。

本周,微软研究院发布了一个名为 Fara1.5 的微型模型,在重要的基准测试中,它击败了这两个模型。

该系列有三种规模:40 亿、90 亿和 270 亿个参数,全部基于 Qwen3.5 构建,Qwen3.5 是微软针对浏览器工作进行微调的阿里巴巴基础模型,所有权重均公开发布。 (参数决定了人工智能模型的知识广度,更一般来说意味着更高的能力。)

<span style="width:0px;overflow:hidden;line-height:0" data-mce-type="bookmark" class="mce_SELRES_start"></span>

要实现这一目标,需要从头开始重新思考整个开发过程。 “我们从一个简单的问题开始:怎样才能让一个小模型真正擅长代理任务?” AI Frontiers 团队写道。 “答案涵盖了整个生命周期——数据生成、培训目标、模型设计和编排必须一起重新设计,而不是孤立地重新设计。”

基准测试

Online-Mind2Web 是基准

阅读原文 →