最近跟前同事聊天,说他们评测了很多开源模型,在他们内部最后采用了通义千问发布的开源模型。今天看到了通义千问刚刚发布的Qwen1.5-MoE-A2.7B,在Git和Huggingface上了解了相关信息:
1.Qwen1.5-MoE-A2.7B是一个混合专家模型(MoE),这是Qwen系列的首个MoE模型,Qwen1.5-MoE-A2.7B。
2.它仅拥有27亿个激活参数,但其性能却能与当前最先进的70亿参数模型,如Mistral 7B和Qwen1.5-7B相媲美。相较于包含65亿个Non-Embedding参数的Qwen1.5-7B,Qwen1.5-MoE-A2.7B只有20亿个Non-Embedding参数,约为原模型大小的三分之一。
3.此外,相比Qwen1.5-7B,Qwen1.5-MoE-A2.7B的训练成本降低了75%,推理速度则提升至1.74倍。
4.Qwen1.5-MoE-A2.7B在与最佳的7B模型相比取得了非常接近的性能。然而,我们发现在chat模型方面仍有改进的空间。我们将继续研究如何更加有效地微调MoE模型。
5.Qwen1.5-MoE-A2.7B与Qwen1.5-7B相比,速度提高了约1.74倍。这种加速主要归因于MoE在前向过程中仅激活了其总参数的一小部分,从而降低了计算需求。此外,共享expert也提升了模型的推理效率。因此,尽管MoE模型增加了内存需求,但它们在吞吐性能和推理速度方面都表现出明显的优势。
我们可以看到国外的开源模型或闭源的模型,如GPT-4,GPT-3.5等,在处理某些中文的任务表现的会比较差,期望国内的开源模型能够充分利用中文语料,能够更好地满足国内市场的需求。 |
|