AI人工智能 马斯克的Grok-1为什么不采用经典Transformer? 前段时间,马斯克开源了大模型Grok-1的源代码。开源本来是件好事,不过很多人发现Grok-1采用的是Mixture-of-Expert,而不是大家熟悉的Transformer架构。这是为什么呢?本文尝试解答一下此类问题。 黄锐 Grok-1Transformer马斯克