From c992c7d0d3af235989a8b9cd967313e199777a72 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E6=B5=B7=E6=B5=AA?= Date: Mon, 22 Apr 2024 14:29:23 +0800 Subject: [PATCH] =?UTF-8?q?Update=20llama=E7=B3=BB=E5=88=97=E6=A8=A1?= =?UTF-8?q?=E5=9E=8B.md?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .../llama\347\263\273\345\210\227\346\250\241\345\236\213.md" | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git "a/01.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213\347\256\200\344\273\213/llama\347\263\273\345\210\227\346\250\241\345\236\213/llama\347\263\273\345\210\227\346\250\241\345\236\213.md" "b/01.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213\347\256\200\344\273\213/llama\347\263\273\345\210\227\346\250\241\345\236\213/llama\347\263\273\345\210\227\346\250\241\345\236\213.md" index bb8607d..aeeb187 100644 --- "a/01.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213\347\256\200\344\273\213/llama\347\263\273\345\210\227\346\250\241\345\236\213/llama\347\263\273\345\210\227\346\250\241\345\236\213.md" +++ "b/01.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213\347\256\200\344\273\213/llama\347\263\273\345\210\227\346\250\241\345\236\213/llama\347\263\273\345\210\227\346\250\241\345\236\213.md" @@ -67,7 +67,7 @@ $$ ![](image/image_6g6JVd5GoX.png) -LLaMA中直接将FFN中的ReLU替换为SwiGLU,并将维度放缩为$(2/3) ⋅ 4d$ +LLaMA中直接将FFN中的ReLU替换为SwiGLU,并将维度放缩为$(2/3) ⋅ 4d$。这样设计的原因是:维度放缩为 $(2/3) ⋅ 4d$ 后,其计算复杂度为 $(112/9) ⋅ d^3 + (8/3) ⋅ d$ ,普通的 $4d$ 纬度的计算复杂度为 $20 ⋅ d^3$ 。 ## 1.4 旋转位置嵌入(RoPE)