MAX 24.5 - 具有 Llama 3.1 的 SOTA CPU 性能

我们很高兴地宣布发布 MAX 24.5，它对 Llama 3.1 CPU 性能进行了重大改进，提供了新的 Python 图形 API 绑定、对 Mojo 进行了有史以来最大的更新、行业标准包装和明确的许可证。请继续阅读以了解更多信息！

MAX 24.5 标志着我们最终的 CPU 专用版本，并配备了改进的 Llama 3.1 管道，与 24.4 版本相比，令牌生成率提高了 45%
这一改进是通过添加新的 MAX 驱动程序接口实现的，该接口使开发人员能够更好地控制 MAX 引擎及其控制的加速器。

除了性能提升之外，MAX Llama 管道还使用 Python 图形 API 绑定的新技术预览从头开始重建，将 MAX 的强大功能直接带给 Python 开发人员。

立即使用我们的新包管理器 Magic 开始使用 MAX 24.5 和 Llama 3.1 管道。Magic 将 MAX 和 Mojo 作为单个包提供，并让您可以访问数千个社区为 Python 和其他语言构建的包。您可以从模块化入门页面使用单个命令安装 Magic 。

安装 Magic 后，运行以下命令即可在 CPU 上体验 Llama 3.1 的先进性能：

git clone https://github.com/modularml/max.git
cd max/examples/graph-api/pipelines
magic run llama3 --prompt "Why is the sky blue?"

就这样！Magic 会自动设置 MAX、安装所需的依赖项、设置隔离的虚拟环境以及启动 Llama 管道。

此外，此版本的MAX 还进行了多项改进，包括：

基于行业标准 Conda 打包的统一 MAX 和 Mojo 包，下载大小减少 30%。
MAX 现在可以与您选择的 PyTorch 配合使用，提供更加简化和可互操作的体验。
MAX 和 Mojo 社区许可证的更新，概述了您可以使用 MAX 和 Mojo 构建和获利的众多用例。您可以在我们的许可常见问题解答中了解更多信息。
一个新的文档站点，其中包括越来越多的教程、示例和入门指南。
支持Python 3.12，使MAX能够被更多开发人员使用。
这是我们对 Mojo 的最大更新，包括简化的语言功能、核心语言的性能改进以及添加了字符串、集合和系统交互功能的新标准库 API。查看完整的发行说明以了解这些改进以及更多内容！

MAX 24.5 with Magic 现已推出！立即下载，在 CPU 上使用 Llama 3.1 体验最先进的 LLM 性能，并为下一版本做好准备。

* 使用 Q4_K 量化的 macOS M2 处理器上，Llama 3.1 令牌生成的性能比 MAX 24.4 提高了 45%。在 Graviton 系统 (c7g.16xlarge) 上性能提高了 35%，在 Intel (c6i.16xlarge) 上性能提高了 20%。