将缓慢的 PyTorch 转变为快速 GPU 内核的 Swarm Agent
Forge 自动将 PyTorch 模型转换为优化的 CUDA 和 Triton 内核。 32 个 AI 代理并行运行,每个代理都尝试不同的优化策略,例如张量核心、内存合并和内核融合。在进行基准测试之前,法官会验证每个内核的正确性。我们在 Llama 3.1 8B 上的推理速度比 torch.compile 快 5 倍,在 Qwen 2.5 7B 上的推理速度快 4 倍。适用于任何 PyTorch 模型。一个内核的免费试用。如果我们没有击败 torch.compile,我们将全额退款。
还没有人点赞