使用 MLX 在 Apple Silicon 上实现大规模本地模型加速
Ollama v0.19 在 MLX 之上重建了 Apple Silicon 推理,为编码和代理工作流程带来了更快的本地性能。它还添加了 NVFP4 支持和更智能的缓存重用、快照和驱逐,以实现响应更快的会话。
还没有人点赞