2026-06-05
币链网 loading...

LM Studio把大模型装进手机:Locally试图重写“端侧算力边界”

摘要
移动端跑大模型这件事,过去一年一直在反复试探物理极限:要么压缩参数,要么依赖云端。

移动端跑大模型这件事,过去一年一直在反复试探物理极限:要么压缩参数,要么依赖云端。LM Studio这次把Locally推到iPhone和iPad上,某种程度是在尝试第三条路径——不削弱模型,也不完全依赖云,而是把桌面算力通过网络“搬”到手机侧。

产品本身分成两条线,一条是真正的端侧运行,另一条是LM LINK远程连接机制。两条路径看起来方向相反,但目标一致:让模型调用不再被设备形态限制。

在本地运行部分,Locally基于Apple Silicon优化,底层使用MLX机器学习框架,支持Llama 3.2、Google Gemma 4、Qwen 3以及DeepSeek等开源模型。手机端可以直接运行Gemma 4(E2B)级别模型,还能导入自定义GGUF格式文件。这意味着用户不只是“使用模型”,而是在移动设备上获得了一个可替换的本地推理环境。

但真正的变化发生在另一条路径上。

LM LINK把手机和桌面端算力通过加密网络连接起来,依赖Tailscale建立通道,用户在手机端登录同一账号后,可以直接调用家用或办公电脑上的大参数模型。这里的关键不在“远程访问”,而在“算力抽象化”——模型运行位置不再绑定设备,而是绑定网络身份。

某种意义上,手机变成了控制层,而不是计算层。

这和过去移动AI应用的逻辑不太一样。传统路径是“云端推理 + 移动端交互”,算力集中在服务端;Locally试图做的是“本地推理 + 分布式算力接入”,把控制权前移,同时把算力资源外部化。

隐私策略也被明确写成100%离线优先。所有本地处理不出设备,远程连接则通过加密通道完成。这种设计显然是在回应一个长期存在的矛盾:用户希望本地隐私,又需要大模型能力,而两者在算力层面天然冲突。

LM Studio选择的解法不是折中,而是拆分。

轻量模型在设备端处理,重模型在桌面端运行,通过LM LINK统一调度。这种结构有点像早期云游戏架构,只不过对象从图形渲染变成了语言模型推理。

从产业视角看,这种“端侧+桌面算力池”的组合,正在变成一个新的中间形态。

一方面,Apple Silicon和MLX让移动端具备了一定规模的本地推理能力,不再只是调用API的终端;另一方面,大模型参数规模持续增长,使得完全本地化越来越不现实。这两股趋势叠加之后,就自然出现了“混合算力模型”。

Locally的设计其实是在给这个结构做产品化封装。

用户不需要理解GPU分布,也不需要管理云服务器,只需要在手机端选择“本地”或“远程”,系统自动完成算力路由。这种抽象层的意义,在于把复杂的算力调度隐藏在应用层之下。

比较微妙的一点是,它并没有试图替代云,而是绕过云的单点依赖。

在Tailscale构建的加密网络之下,算力来源可以是家用PC、办公室工作站,甚至是闲置的高性能机器。模型调用变成一种“设备间关系管理”,而不是传统意义上的服务调用。

如果把这个结构放大看,会发现它其实在重塑一个问题:大模型时代的“设备边界”到底在哪里。

过去,设备决定算力;现在,网络开始重新定义设备。手机不再只是终端,桌面电脑也不只是本地机器,它们更像同一个算力池中的不同入口。

Locally的价值不在于它能跑多少模型,而在于它把“模型运行位置”变成了一个可切换变量。

当这个变量被产品化之后,AI应用的结构也会随之变化:不再围绕单一云服务展开,而是围绕“可访问算力网络”展开。

移动端大模型竞争,正在从“谁能跑模型”,转向“谁能调度模型”。

币安是全球货币交易所龙头

提供200+种加密货币交易,24小时交易量超过300亿美元

欧易是领先的数字交易平台

支持400+交易对,提供现货、合约、理财等多种服务

声明:文章不代表本网观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!转载请注明出处!侵权必究!
回顶部