Forge Agent

关于产品

Forge 自动将 PyTorch 模型转换为优化的 CUDA 和 Triton 内核。 32 个 AI 代理并行运行，每个代理都尝试不同的优化策略，例如张量核心、内存合并和内核融合。在进行基准测试之前，法官会验证每个内核的正确性。我们在 Llama 3.1 8B 上的推理速度比 torch.compile 快 5 倍，在 Qwen 2.5 7B 上的推理速度快 4 倍。适用于任何 PyTorch 模型。一个内核的免费试用。如果我们没有击败 torch.compile，我们将全额退款。

关于产品

发布者

标签

点赞用户