Support Model#
Each model directory under examples/ usually contains both training (pre-train / fine-tune) and checkpoint-conversion scripts—ready to use out-of-the-box.
Model Type |
Model Category |
Model |
Pretrain |
SFT |
Config |
|---|---|---|---|---|---|
LLM |
DeepSeek-V2 |
deepseek_v2 |
✅(example) |
✅(example) |
|
deepseek_v2_lite |
✅(example) |
✅(example) |
|||
DeepSeek-V3 |
deepseek_v3_bf16 |
✅(example) |
✅(example) |
||
deepseek_v3_fp8 |
✅(example) |
✅(example) |
|||
deepseek_v3.2_fp8 |
✅(example) |
✅(example) |
|||
Llama2 |
llama2_7b |
✅(example) |
✅(example) |
||
llama2_13b |
✅(example) |
✅(example) |
|||
llama2_70b |
✅(example) |
✅(example) |
|||
Llama3 |
llama3_8b |
✅(example) |
✅(example) |
||
llama3_70b |
✅(example) |
✅(example) |
|||
Llama3.1 |
llama3.1_8b |
✅(example) |
✅(example) |
||
llama3.1_70b |
✅(example) |
✅(example) |
|||
llama3.1_405b |
✅(example) |
✅(example) |
|||
Qwen |
qwen_1.8b |
✅(example) |
✅(example) |
||
qwen_7b |
✅(example) |
✅(example) |
|||
qwen_14b |
✅(example) |
✅(example) |
|||
qwen_72b |
✅(example) |
✅(example) |
|||
Qwen1.5 |
qwen1.5_0.5b |
✅(example) |
✅(example) |
||
qwen1.5_1.8b |
✅(example) |
✅(example) |
|||
qwen1.5_4b |
✅(example) |
✅(example) |
|||
qwen1.5_7b |
✅(example) |
✅(example) |
|||
qwen1.5_14b |
✅(example) |
✅(example) |
|||
qwen1.5_32b |
✅(example) |
✅(example) |
|||
qwen1.5_72b |
✅(example) |
✅(example) |
|||
Qwen2 |
qwen2_0.5b |
✅(example) |
✅(example) |
||
qwen2_1.5b |
✅(example) |
✅(example) |
|||
qwen2_7b |
✅(example) |
✅(example) |
|||
qwen2_72b |
✅(example) |
✅(example) |
|||
Qwen2.5 |
qwen2.5_0.5b |
✅(example) |
✅(example) |
||
qwen2.5_1.5b |
✅(example) |
✅(example) |
|||
qwen2.5_3b |
✅(example) |
✅(example) |
|||
qwen2.5_7b |
✅(example) |
✅(example) |
|||
qwen2.5_14b |
✅(example) |
✅(example) |
|||
qwen2.5_32b |
✅(example) |
✅(example) |
|||
qwen2.5_72b |
✅(example) |
✅(example) |
|||
Qwen3 |
qwen3_0.6b |
✅(example) |
✅(example) |
||
qwen3_1.7b |
✅(example) |
✅(example) |
|||
qwen3_4b |
✅(example) |
✅(example) |
|||
qwen3_8b |
✅(example) |
✅(example) |
|||
qwen3_14b |
✅(example) |
✅(example) |
|||
qwen3_32b |
✅(example) |
✅(example) |
|||
qwen3_30b_a3b |
✅(example) |
✅(example) |
|||
qwen3_235b_a22b |
✅(example) |
✅(example) |
|||
qwen3_480b_a35b |
✅(example) |
✅(example) |
|||
qwen3_coder_30b_a3b |
✅(example) |
✅(example) |
|||
Qwen3-Next |
qwen3_next_80b_a3b |
✅(example) |
✅(example) |
||
MiniMax |
minimax2.1_230b |
✅(example) |
✅(example) |
||
minimax2.5_230b |
✅(example) |
✅(example) |
|||
minimax2.7_230b |
✅(example) |
||||
MIMO |
mimo_7b |
✅(example) |
|||
GLM |
glm5 |
✅(example) |
✅(example) |
||
VLM |
Qwen2.5-VL |
qwen2.5_vl_3b |
✅(example) |
✅(example) |
|
qwen2.5_vl_7b |
✅(example) |
✅(example) |
|||
qwen2.5_vl_32b |
✅(example) |
✅(example) |
|||
qwen2.5_vl_72b |
✅(example) |
✅(example) |
|||
Qwen3-VL |
qwen3_vl_30b_a3b |
✅(example) |
✅(example) |
||
qwen3_vl_235b_a22b |
✅(example) |
✅(example) |
|||
Qwen3.5 |
qwen3_5_0_8b |
✅(example) |
✅(example) |
||
qwen3_5_2b |
✅(example) |
✅(example) |
|||
qwen3_5_4b |
✅(example) |
✅(example) |
|||
qwen3_5_9b |
✅(example) |
✅(example) |
|||
qwen3_5_27b |
✅(example) |
✅(example) |
|||
qwen3_5_35b_a3b |
✅(example) |
✅(example) |
|||
qwen3_5_122b_a10b |
✅(example) |
✅(example) |
|||
qwen3_5_397b_a17b |
✅(example) |
✅(example) |
|||
Qwen3.6 |
qwen3_6_27b |
✅(example) |
✅(example) |
||
qwen3_6_35b_a3b |
✅(example) |
✅(example) |
|||
Kimi-K2.5 |
kimi_k2_5 |
✅(example) |
✅(example) |
||
Kimi-K2.6 |
kimi_k2_6 |
✅(example) |
✅(example) |
||
LLaVA-OneVision-1.5 |
llava_onevision_1.5_4b |
✅(example) |
|||
InternVL-2.5 |
internvl2.5_8b |
✅(example) |
|||
internvl2.5_26b |
✅(example) |
||||
internvl2.5_38b |
✅(example) |
||||
internvl2.5_78b |
✅(example) |
||||
InternVL-3.5 |
internvl3.5_8b |
✅(example) |
|||
internvl3.5_14b |
✅(example) |
||||
internvl3.5_38b |
✅(example) |
||||
internvl3.5_30b_a3b |
✅(example) |
||||
internvl3.5_241b_a28b |
✅(example) |
||||
ERNIE4.5-VL |
ernie4.5_vl_28b_a3b |
✅(example) |
|||
Video |
Wan2.2 |
wan2.2_i2v_a14b |
✅(example) |
||
VLA |
Pi05 |
pi05 |
✅(example) |
||
GR00T-N1.6 |
groot_n1_6 |
✅(example) |