只激活3.8B参数,性能比肩同款7B模型!训练微调都能用,来自微软