Feature List中文版
Model Compiler
- 新编译器框架,易于扩展和维护。
- 支持集合(新/老编译器)
训练框架 | 模型格式 | 目标运行时 | 编译后模型格式 |
Keras | h5 | Tf Serving | SavedModel |
|
| OpenVINO | IR |
|
| TensorRT | Plan |
|
| TF-Lite | tflite |
TensorFlow | Ckpt/pb | Tf Serving | SavedModel |
|
| OpenVINO | IR |
|
| TensorRT | Plan |
|
| TF-Lite | tflite |
PyTorch | pth | OpenVINO | IR |
|
| TensorRT | Plan |
训练框架 | 推理引擎 | 运行硬件 |
| TensorFlow Serving-1.14 | CPU/GPU |
| TensorFlow Serving-2.2 | CPU/GPU |
| OpenVINO-2019 | CPU |
| TensorRT-6 | GPU |
| TensorRT-7 | GPU |
| TF Lite-2.1 | CPU(X86/ARM) |
TensorFlow | TensorFlow Serving-1.14 | CPU/GPU |
| TensorFlow Serving-2.2 | CPU/GPU |
| OpenVINO-2019 | CPU |
| TensorRT-6 | GPU |
| TensorRT-7 | GPU |
| TF Lite-2.1 | CPU(X86/ARM) |
PyTorch | OpenVINO-2019 | CPU |
| TensorRT-6 | GPU |
Model Optimizer
1、支持多机多卡的模型训练和剪枝
2、可以配置的filter pruning实现,剪枝后能直接得到更小的推理模型;
3、基于小批量数据集的模型量化,支持TF-Lite和TF-TRT量化。
Inference Engine
- 支持多模型和模型多版本管理,可以实时升级模型版本
- 推理服务端支持http和grpc接口
- 运行时调度器支持多模型实例调度
集成多种推理运行时。
集成的推理运行时及版本
运行硬件
TensorFlow Serving-1.14
CPU/GPU
TensorFlow Serving-2.2
CPU/GPU
OpenVINO-2019
CPU
TensorRT-6
GPU
TensorRT-7
GPU
TF Lite-2.1
CPU(X86/ARM)
- 框架集成了dlib库,支持机器学习计算
Benchmark Test Framework for Deep Learning Model
- 使用容器化方案,自动执行模型的编译,打包,运行时和模型的加载,启动服务和推理客户端执行代码,最后和输出性能测试结果。
- 支持Adlik所有支持的模型编译和运行时。
- 支持的输出包括:
- 推理结果
- 推理速度
- 推理执行的延迟时间