diff --git "a/01.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213\347\256\200\344\273\213/llama\347\263\273\345\210\227\346\250\241\345\236\213/llama\347\263\273\345\210\227\346\250\241\345\236\213.md" "b/01.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213\347\256\200\344\273\213/llama\347\263\273\345\210\227\346\250\241\345\236\213/llama\347\263\273\345\210\227\346\250\241\345\236\213.md" index bb8607d..aeeb187 100644 --- "a/01.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213\347\256\200\344\273\213/llama\347\263\273\345\210\227\346\250\241\345\236\213/llama\347\263\273\345\210\227\346\250\241\345\236\213.md" +++ "b/01.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213\347\256\200\344\273\213/llama\347\263\273\345\210\227\346\250\241\345\236\213/llama\347\263\273\345\210\227\346\250\241\345\236\213.md" @@ -67,7 +67,7 @@ $$ ![](image/image_6g6JVd5GoX.png) -LLaMA中直接将FFN中的ReLU替换为SwiGLU,并将维度放缩为$(2/3) ⋅ 4d$ +LLaMA中直接将FFN中的ReLU替换为SwiGLU,并将维度放缩为$(2/3) ⋅ 4d$。这样设计的原因是:维度放缩为 $(2/3) ⋅ 4d$ 后,其计算复杂度为 $(112/9) ⋅ d^3 + (8/3) ⋅ d$ ,普通的 $4d$ 纬度的计算复杂度为 $20 ⋅ d^3$ 。 ## 1.4 旋转位置嵌入(RoPE)