发布日期:2024-06-04 05:12 点击次数:62
2024年6月3日,昆仑万维秘书开源 2 千亿荒芜大模子 Skywork-MoE , 性能强盛, 同期推理资本更低。Skywork-MoE 基于之前昆仑万维开源的 Skywork-13B 模子中间 checkpoint 膨胀而来,是首个好意思满将 MoE Upcycling 本事愚弄并落地的开源千亿 MoE大模子,亦然首个扶持用单台 4090 事业器推理的开源千亿 MoE大模子。模子架构:本次开源的 Skywork-MoE 模子附庸于天工 3.0 的研发模子系列,是其中的中档大小模子(Skywork-MoE-Medium),模子的总参数目为 146B,激活参数目 22B,共有 16 个 Expert,每个 Expert 大小为 13B,每次激活其中的 2 个 Expert。天工 3.0 还锻真金不怕火了 75B (Skywork-MoE-Small) 和 400B (Skywork-MoE-Large)两档 MoE 模子,并不在这次开源之列。 模子才调:咱们基于现在各大主流模子评测榜单评测了 Skywork-MoE,在交流的激活参数目 20B(推理策划量)下,Skywork-MoE 才调在行业前线,接近 70B 的 Dense 模子。使得模子的推理资本有近 3 倍的下落。同期 Skywork-MoE 的总参数大小比 DeepSeekV2 的总参数大小要小 1/3,用更小的参数限度作念到了左近的才调。本事改进:为了束缚 MoE 模子锻真金不怕火珍惜,泛化性能差的问题,相较于 Mixtral-MoE, Skywork-MoE 遐想了两种锻真金不怕火优化算法:1. Gating Logits 归一化操作咱们在 Gating Layer 的 token 分发逻辑处新增了一个 normalization 操作,使得 Gating Layer 的参数学习愈加趋向于被选中的 top-2 experts,加多 MoE 模子关于 top-2 的置信度:2. 自适合的 Aux Loss有别于传统的固定扫数(固定超参)的 aux loss, 咱们在 MoE 锻真金不怕火的不同阶段让模子自适合的遴荐符合的 aux loss 超参扫数,从而让 Drop Token Rate 保抓在符合的区间内,既能作念到 expert 分发的平衡,又能让 expert 学习具备互异化,从而进步模子举座的性能和泛化水平。在 MoE 锻真金不怕火的前期,由于参数学习不到位,导致 Drop Token Rate 太高(token 分散互异太大),此时需要较大的 aux loss 匡助 token load balance;在 MoE 锻真金不怕火的后期,咱们但愿 Expert 之间仍保证一定的差别度,幸免 Gating 倾向为立地分发 Token,因此需要较低的 aux loss 裁汰纠偏。 锻真金不怕火 Infra怎样对 MoE 模子高效的进行大限度分散式锻真金不怕火是一个有难度的挑战,现在社区还莫得一个最好践诺。Skywork-MoE 建议了两个紧要的并行优化遐想,从而在千卡集群上完毕了 MFU 38% 的锻真金不怕火隐隐,其中 MFU 以 22B 的激活参数策划表面策划量。 1. Expert Data Parallel区别于 Megatron-LM 社区已有的 EP(Expert Parallel)和 ETP(Expert Tensor Parallel)遐想,咱们建议了一种称之为 Expert Data Parallel 的并行遐想决策,这种并行决策不错在 Expert 数目较小时仍能高效的切分模子,对 Expert 引入的 all2all 通讯也不错最猛进程的优化和袒护。相较于 EP 对 GPU 数目的截至和 ETP 在千卡集群上的低效, EDP 不错较好的束缚大限度分散式锻真金不怕火 MoE 的并行痛点,同期 EDP 的遐想浅显、鲁棒、易膨胀,不错较快的完毕和考据。一个最浅显的 EDP 的例子,两卡情况下 TP = 2, EP = 2, 其中 Attention 部分继承 Tensor Parallel , Expert 部分继承 Expert Parallel 2. 非均匀切分活水并行由于 first stage 的 Embedding 策划和 last stage 的 Loss 策划,以及 Pipeline Buffer 的存在, 活水并行下均匀切分 Layer 时的各 stage 策划负载和显存负载均有较解析的不平衡情况。咱们建议了非均匀的活水并行切分和重策划 Layer 分拨表情,使得总体的策划/显存负载更平衡,约有 10% 傍边的端到端锻真金不怕火隐隐进步。相比均匀切分和非均匀切分下的活水并行气泡:关于一个 24 层 Layer 的 LLM, (a) 是均匀切分红 4 个 stage,每个 stage 的 layer 数目是:[6, 6, 6, 6].(b) 是历程优化后的非均匀切分表情,切成 5 个 stage, 每个 stage 的 layer 数目是:[5, 5, 5, 5, 4] , 在中间活水打满的阶段,非均匀切分的气泡更低。MoE Know-how此外,Skywork-MoE 还通过一系列基于 Scaling Laws 的实验,筹商哪些敛迹会影响 Upcycling 和 From Scratch 锻真金不怕火 MoE 模子的横暴。一个不错撤职的训戒律例是:若是锻真金不怕火 MoE 模子的 FLOPs 是锻真金不怕火 Dense 模子的 2 倍以上,那么遴荐 from Scratch 锻真金不怕火 MoE 会更好,不然的话,遴荐 Upcycling 锻真金不怕火 MoE 不错解析减少锻真金不怕火资本。 4090 推理Skywork-MoE 是现在能在 8x4090 事业器上推理的最大的开源 MoE 模子。8x4090 事业器一共有 192GB 的 GPU 显存,在 FP8 量化下(weight 占用 146GB),使用咱们草创的非均匀 Tensor Parallel 并行推理表情,Skywork-MoE 不错在符合的 batch size 内达到 2200 tokens/s 的隐隐。天工团队好意思满开源了相干的推理框架代码和装置环境。 结语咱们但愿本次开源的 Skywork-MoE 模子、本事阐明和相干的实验效用不错给开源社区孝顺更多的 MoE 锻真金不怕火训戒和 Know-how,包括模子结构、超参遴荐、锻真金不怕火手段、锻真金不怕火推理加快等各方面, 探索用更低的锻真金不怕火推理资本训更大更强的模子,在通往 AGI 的说念路上孝顺少许力量。举报/响应","del":0,"gnid":"97b8878e76af5dffa","img_data":[{"flag":"2","img":[{"desc":"","height":"480","title":"","url":"http://p9.img.360kuai.com/t11508c75c848386e9b9274e7a7.jpg","width":"640"},{"desc":"","height":"291","title":"","url":"http://p9.img.360kuai.com/t11508c75c807297bc2dcda1e73.jpg","width":"640"},{"desc":"","height":"581","title":"","url":"http://p9.img.360kuai.com/t11508c75c8ba30525c43524055.jpg","width":"640"},{"desc":"","height":"820","title":"","url":"http://p9.img.360kuai.com/t11508c75c89930c6d47a53226c.jpg","width":"640"},{"desc":"","height":"494","title":"","url":"http://p9.img.360kuai.com/t11508c75c8a8a4a8f25688118c.jpg","width":"640"},{"desc":"","height":"215","title":"","url":"http://p9.img.360kuai.com/t11508c75c8730f871b83a08997.jpg","width":"640"},{"desc":"","height":"334","title":"","url":"http://p9.img.360kuai.com/t11508c75c8a167345675985904.jpg","width":"640"}]}],"original":0,"pat":"art_src_6,fts0,sts0","powerby":"cache","pub_time":1717409280000,"pure":"","rawurl":"http://zm.news.so.com/df00cf1d0fbd7e18238e4389ad3c3022","redirect":0,"rptid":"97665d636c948a13","rss_ext":[],"s":"t","src":"中国网科技","tag":[],"title":"昆仑万维开源2千亿荒芜大模子天工MoE,巨匠草创能用4090推理","type":"zmt","wapurl":"http://zm.news.so.com/df00cf1d0fbd7e18238e4389ad3c3022","ytag":"科技:东说念主工智能:AI本事","zmt":{"brand":{},"cert":"中国网科技官方账号","desc":"中国网科技频说念官方账号","fans_num":613,"id":"2695484595","is_brand":"0","name":"中国网科技","new_verify":"4","pic":"https://p3.img.360kuai.com/t01faba5edead4ac8c9.jpg","real":1,"textimg":"https://p9.img.360kuai.com/bl/0_3/t017c4d51e87f46986f.png","verify":"0"},"zmt_status":0}","errmsg":"","errno":0}