
让 AI 帮你操作电脑,这事儿听起来像科幻片,但微软已经把它做成了现实。2025 年 11 月 24 日,微软发布了 Fara-7B——首个专门为"计算机操作"设计的代理型小语言模型(SLM)。
最关键的是:它只有 70 亿参数,可以在本地电脑上跑,完全免费,不需要花 API 费用。今天五哥就来聊聊,这个模型到底有什么特别的。
一、Fara-7B 是什么?
Fara-7B 的全称是 Faraday Agent 7B,是微软研究院推出的第一个专门用于计算机操作的代理小语言模型。它属于 CUA(Computer Use Agent) 模型,也就是说——它能像人一样操作电脑。
具体来说,Fara-7B 可以:
- 看懂屏幕上的内容(截图理解)
- 操作鼠标(点击、拖拽、滚动)
- 操作键盘(打字、快捷键)
- 打开浏览器、填写表单、点击按钮
- 在终端执行命令
简单说就是:你给它一个任务描述,它就能自己操作电脑帮你完成。
二、它和其他 AI 模型有什么不同?

你可能会问:GPT-4、Claude 不也能操作电脑吗?确实,但 Fara-7B 有几个本质区别:
| 对比项 | GPT-4 / Claude | Fara-7B |
| 参数规模 | 数千亿 | 70 亿(7B) |
| 运行方式 | 云端 API | 本地运行 |
| 使用成本 | 按 token 付费 | 完全免费 |
| 隐私性 | 数据上传云端 | 数据不出本机 |
| 专门训练 | 通用模型 | 专门为计算机操作训练 |
| 延迟 | 网络延迟 | 本地推理,响应快 |
核心优势就三个字:小、快、省。7B 参数意味着普通显卡就能跑,本地运行意味着不需要联网也不花钱,专门为计算机操作训练意味着它在这件事上比通用模型更专业。
三、Fara-7B 的工作原理
Fara-7B 的工作流程其实和人类操作电脑很像:
- 看(Screen Capture):截取当前屏幕画面
- 理解(Understanding):分析屏幕上有什么元素、当前是什么状态
- 规划(Planning):根据任务目标,决定下一步要做什么
- 执行(Action):通过鼠标和键盘执行操作
- 循环:回到第 1 步,看操作结果,继续下一步
这个循环会一直持续到任务完成。整个过程就像一个"看-想-做"的循环,和人类操作电脑的思路一模一样。
四、能用来干什么?
1. 自动化重复操作
每天要填的表单、要点击的按钮、要复制粘贴的数据——这些重复劳动都可以交给 Fara-7B。
2. 网页数据采集
需要从网站上收集信息?Fara-7B 可以像人一样浏览网页、翻页、提取数据,比传统爬虫更灵活。
3. 软件测试
自动化 UI 测试:让 Fara-7B 模拟用户操作,测试软件的各种功能是否正常。
4. 辅助操作
对于不太会用电脑的人,Fara-7B 可以充当"操作助手"——你说一句话,它帮你完成操作。
5. 集成到 Magentic-UI
微软已经把 Fara-7B 集成到了 Magentic-UI 项目中。Magentic-UI 是一个研究原型,专门探索人机协作的计算机操作方式。你可以在 GitHub 上体验。
五、怎么在本地部署?
Fara-7B 的部署相对简单,几个步骤就能搞定:
环境要求
- Python 3.10+
- GPU:建议 8GB 以上显存(RTX 3060 级别即可)
- 内存:16GB 以上
- 操作系统:Windows / Linux / macOS
安装步骤
从 SourceForge 或 Hugging Face 下载模型权重,然后用 Hugging Face Transformers 加载:
# 安装依赖
pip install transformers torch accelerate
# 下载模型(从 Hugging Face)
pip install huggingface_hub
huggingface-cli download microsoft/Fara-7B --local-dir ./Fara-7B
# 或从 SourceForge 下载
# https://sourceforge.net/projects/fara-7b.mirror/
加载模型的 Python 代码:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_path = "./Fara-7B"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
model_path,
torch_dtype="auto",
device_map="auto"
)
# 输入任务描述和屏幕截图
# 模型会输出下一步的操作(鼠标/键盘指令)
更详细的集成方式可以参考 Magentic-UI 的 GitHub 仓库,里面有完整的示例。
六、安全措施
一个能操作电脑的 AI,安全性当然是重中之重。微软在 Fara-7B 中内置了多层安全机制:
- 操作确认:关键操作前会请求用户确认
- 沙箱模式:可以在隔离环境中运行
- 行为审计:记录所有操作日志,方便回溯
- 内容过滤:内置安全过滤器,防止执行危险操作
微软官方也强调,Fara-7B 是一个"实验性模型",建议在受控环境中使用。
七、总结
Fara-7B 的意义在于:它证明了 7B 小模型也能做"计算机操作代理"这种复杂任务。不需要千亿参数,不需要云端 API,不需要花钱——本地一张普通显卡就能跑。
虽然目前还是实验性阶段,但这个方向非常有前景。想象一下,以后你的电脑上跑着一个 AI 助手,你说一句话它就帮你完成各种操作——这就是 Fara-7B 在探索的未来。
相关链接:
- 微软研究院博客:microsoft.com/research
- Magentic-UI GitHub:github.com/microsoft/magentic-ui
- SourceForge 下载:sourceforge.net/projects/fara-7b.mirror