我们很高兴地宣布发布 MAX 24.5,它对 Llama 3.1 CPU 性能进行了重大改进,提供了新的 Python 图形 API 绑定、对 Mojo 进行了有史以来最大的更新、行业标准包装和明确的许可证。请继续阅读以了解更多信息!
MAX 24.5 标志着我们最终的 CPU 专用版本,并配备了改进的 Llama 3.1 管道,与 24.4 版本相比,令牌生成率提高了 45%
这一改进是通过添加新的 MAX 驱动程序接口实现的,该接口使开发人员能够更好地控制 MAX 引擎及其控制的加速器。
除了性能提升之外,MAX Llama 管道还使用 Python 图形 API 绑定的新技术预览从头开始重建,将 MAX 的强大功能直接带给 Python 开发人员。
立即使用我们的新包管理器 Magic 开始使用 MAX 24.5 和 Llama 3.1 管道。Magic 将 MAX 和 Mojo 作为单个包提供,并让您可以访问数千个社区为 Python 和其他语言构建的包。您可以从模块化入门页面使用单个命令安装 Magic 。
安装 Magic 后,运行以下命令即可在 CPU 上体验 Llama 3.1 的先进性能:
git clone https://github.com/modularml/max.git
cd max/examples/graph-api/pipelines
magic run llama3 --prompt "Why is the sky blue?"
就这样!Magic 会自动设置 MAX、安装所需的依赖项、设置隔离的虚拟环境以及启动 Llama 管道。
此外,此版本的MAX 还进行了多项改进,包括:
- 基于行业标准 Conda 打包的统一 MAX 和 Mojo 包,下载大小减少 30%。
- MAX 现在可以与您选择的 PyTorch 配合使用,提供更加简化和可互操作的体验。
- MAX 和 Mojo 社区许可证的更新,概述了您可以使用 MAX 和 Mojo 构建和获利的众多用例。您可以在我们的许可常见问题解答中了解更多信息。
- 一个新的文档站点,其中包括越来越多的教程、示例和入门指南。
- 支持Python 3.12,使MAX能够被更多开发人员使用。
- 这是我们对 Mojo 的最大更新,包括简化的语言功能、核心语言的性能改进以及添加了字符串、集合和系统交互功能的新标准库 API。查看完整的发行说明以了解这些改进以及更多内容!
MAX 24.5 with Magic 现已推出!立即下载,在 CPU 上使用 Llama 3.1 体验最先进的 LLM 性能,并为下一版本做好准备。
* 使用 Q4_K 量化的 macOS M2 处理器上,Llama 3.1 令牌生成的性能比 MAX 24.4 提高了 45%。在 Graviton 系统 (c7g.16xlarge) 上性能提高了 35%,在 Intel (c6i.16xlarge) 上性能提高了 20%。