2024年1月24日,英特尔正式发布了OpenVINO™ 2023.3版本(Release Notes for Intel Distribution of OpenVINO Toolkit 2023.3)。OpenVINO™是英特尔针对自家硬件平台开发的一套深度学习工具库,包含推断库,模型优化等等一系列与深度学习模型部署相关的功能。OpenVINO™工具包是用于快速开发应用程序和解决方案的综合工具包,可解决各种任务,包括模拟人类视觉,自动语音识别,自然语言处理,推荐系统等。该工具包基于最新一代的人工神经网络,包括卷积神经网络(CNN),循环和基于注意力的网络,可在英特尔®硬件上扩展计算机视觉和非视觉工作负载,从而最大限度地提高性能。它通过从边缘到云的高性能,人工智能和深度学习推理来加速应用程序。
OpenVINO toolkit 2023.3 LTS版本主要的新功能和改进
- 更多的生成式人工智能覆盖范围和框架集成,以最大限度地减少代码更改。
- 引入 GitHub OpenVINO Gen AI项目,该项目演示了大型语言模型 (LLM) 的本机 C 和 C++ pipeline示例。 现在支持string tensors作为input和tokenizers,以减少开销并简化生产。
- 经过验证的新的的模型: Mistral、Zephyr、Qwen、ChatGLM3 和 Baichuan。
- 用于潜在一致性模型 (Latent Consistency Model,LCM) 和 Distil-Whisper 的新 Jupyter Notebook。 更新了 LLM Chatbot notebook,包括 LangChain、Neural Chat、TinyLlama、ChatGLM3、Qwen、Notus 和 Youri 模型。
- Torch.compile 现已与 OpenVINO 完全集成,其中包含硬件“选项”参数,允许利用 OpenVINO 中的插件架构进行无缝推理硬件选择。
- 更广泛的大型语言模型 (LLM) 支持和更多模型压缩技术。
- 作为神经网络压缩框架 (NNCF) 的一部分,除了英特尔® 酷睿™ 和 iGPU 之外,英特尔® 至强® CPU 现在完全支持 INT4 权重压缩模型格式,从而在使用大语言模型时提高性能、降低内存使用率并提高准确性。
- 使用状态模型(stateful model)技术提高了 CPU 和 GPU 上基于Transformer的 LLM 的性能,以提高内存效率,其中内部状态在推理的多次迭代之间共享。
- Tokenizer 和 TorchVision 转换支持现已在 OpenVINO runtime(通过新 API),只需要更少的预处理代码并通过自动处理此模型设置来增强性能。 有关 Tokenizer 支持的更多详细信息,请参阅生态系统部分。
- 支持变更和弃用通知
- OpenVINO™ 开发工具包 (pip install openvino-dev) 已弃用,将从 2025.0 版本开始从安装选项和分发渠道中删除。 有关更多详细信息,请参阅 OpenVINO 传统功能和组件页面。
- 2023.3 LTS 版本中不再支持 Ubuntu 18.04。 推荐的 Ubuntu 版本是 22.04。
- 从 2023.3 开始,由于 Python 社区停止支持,OpenVINO 不再支持 Python 3.7。 更新到较新的版本(当前为 3.8-3.11)以避免中断。
- 所有 ONNX 前端旧版 API(称为 ONNX_IMPORTER_API)在 2024.0 版本中将不再可用。
- 作为 OpenVINO Python API 一部分的“PerfomanceMode.UNDEFINED”属性将在 2024.0 版本中停用。
- 工具方面:
- Deployment Manager 已弃用,根据 LTS 政策将提供两年支持。 访问选择器工具以查看包分发选项或部署指南文档。
- 准确性检查器(Accuracy Checker)已弃用,并将于 2024.0 停止。
- 训练后优化工具 (Post-Training Optimization Tool, POT) 已被弃用,2023.3 LTS 是支持该工具的最后一个版本。 鼓励开发人员使用神经网络压缩框架 (Neural Network Compression Framework, NNCF) 来实现此功能。
- 模型优化器(Model Optimizer)已弃用,但在 2025.0 版本之前还会有全面支持。 我们鼓励开发者通过 OpenVINO Model Converter(API 调用:OVC)进行模型转换。 请遵循模型转换过渡指南了解更多详细信息。
- 已弃用对用于 NNCF 与 Huggingface/transformers 集成的 git 补丁的支持。 推荐的方法是使用 Huggingface/optimum-intel 在 Hugging Face 的模型之上应用 NNCF 优化。
- 对 Apache MXNet、Caffe 和 Kaldi 模型格式的支持已弃用,并将在 2024.0 版本中停止支持。
- RunTime方面:
- 英特尔® 高斯和神经加速器(Gaussian & Neural Accelerator, GNA)将在未来版本中弃用。 我们鼓励开发人员将神经处理单元 (NPU) 用于低功耗系统,例如英特尔® 酷睿™ Ultra 或第 14 代及更高版本。
- OpenVINO C++/C/Python 1.0 API 已弃用,并将在 2024.0 版本中停止使用。 请在您的应用程序中使用 API 2.0 以避免中断。
- OpenVINO 属性 Affinity API 将从 2024.0 起弃用,并将于 2025.0 终止。 它将被 CPU 绑定配置 (ov::hint::enable_cpu_pinning) 取代。
作者个人Blog(HY's Blog):https://blog.yanghong.dev