
导语:2月10日,腾讯混元推出头具名向消费级硬件场景的“极小”模子HY-1.8B-2Bit。该模子基在1.8B参数的小尺寸模子,经由过程2Bit量化技能,等效参数目约为0.3 2月10日,腾讯混元推出头具名向消费级硬件场景的“极小”模子HY-1.8B-2Bit。该模子基在1.8B参数的小尺寸模子,经由过程2Bit量化技能,等效参数目约为0.3B,现实存储占用仅约600MB,比经常使用的一些手机运用还有小,实现了端侧部署的新冲破。 该模子基在混元团队首创的财产级2Bit端侧量化方案,经由过程对于HY-1.8B-Instruct模子举行2比特量化感知练习(QAT)产出,模子巨细削减至原始精度模子的1/6,同时于真实端侧装备上天生速率晋升2-3倍,可年夜幅晋升利用体验。能力上,模子还有保留了原版的思维链,可以为差别繁杂度的使命提供响应深度的推理历程。这是业界首个实现2bit财产级量化的端侧模子实践。 左图为HY-1.8B原始精度模子,右图为HY-1.8B-2Bit模子,量化后的模子速率较着更快 跟着年夜语言模子普和,怎样将模子于好比手机、耳机或者者智能家居装备运用,成为业界难题,特别不少运用对于模子的离线部署、私密性等都有更高的需求,这就需要更多可以或许于端侧运行的又小又强的模子。端侧部署的睁开,素质上是一条于“小而精,快而准”的艰巨摸索之路,咱们既需要模子充足智慧,能应答千变万化的真实需求,又必需将它约束于极为有限的硬件资源内部署并快速推理,这就似乎于给模子举行“减脂增肌,减重提质”。 比特(Bit)是计较机存储的最小单元,1比特能暗示2种状况(0或者1),2比特能暗示4种状况,依此类推,一般模子的精度有2比特、4比特、8比特、32比特等暗示要领,数值越年夜模子的精度更高,所占的内存就越年夜。 虽然2比特量化的精度丧失较年夜,但经由过程QAT及进步前辈的量化计谋,已经经能让2比特模子靠近全精度模子的机能。于模子能力方面,对于比4比特PTQ模子版本数学、代码、科学等指标上体现相称,实现了“小而强”的设计方针。 技能上,量化作为年夜模子部署上线不成或者缺的一环,肩负了降低部署成本与保精度的任务,年夜部门环境下对于在int四、int八、fp8的压缩精度要求,采用PTQ量化计谋便可实现险些无损,但跟着原始模子巨细的缩小、压缩bit数的进一步降低,PTQ带来的量化丧失是巨年夜的。是以,对于在原始模子巨细只有1.8B,量化bit数只有2bit的HY-1.8B-2Bit,混元团队采用了量化感知练习计谋,这显著晋升了量化后模子的机能。 腾讯混元还有经由过程数据优化、弹性拉伸量化以和练习计谋立异三个要领来最年夜限度的晋升HY-1.8B-2Bit的全科能力。 部署方面,腾讯混元提供了HY-1.8B-2Bit的gguf-int2格局的模子权重与bf16伪量化权重,对于比原始精度模子,HY-1.8B-2Bit 可以或许矫捷用在端侧装备上,该模子也已经于 Arm 等计较平台上完成适配,可部署在启用 Arm SME2 技能的挪动装备上,并实现高效运行。 于MacBook M4芯片上,HY-1.8B-2Bit 固定了线程数为2测试了差别窗口巨细下的首字时延及天生速率,模子选定fp1六、Q四、HY-1.8B-2Bit三种gguf格局作为对于比,首字时延于1024输入内可以或许连结3—8倍的加快,天生速率上经常使用窗口下对于比原始模子精度,HY-1.8B-2Bit可以或许实现至少2倍不变加快。 于天玑9500上一样举行了测试,对于比HY-1.8B-Q4格局首字时延可以或许加快1.5—2倍,天生速率加快约1.5倍。 当前,HY-1.8B-2Bit的能力仍受限在监视微调(SFT)的练习流程,以和基础模子自己的机能与抗压能力。针对于这一问题,混元团队将来将重点转向强化进修与模子蒸馏等技能路径,以期进一步缩小低比特量化模子与全精度模子之间的能力差距,从而为边沿装备上的年夜语言模子部署开拓更广漠的运用远景。 项目链接:https://github.com/Tencent/AngelSlim 模子地址:https://huggingface.co/AngelSlim/HY-1.8B-2Bit https://huggingface.co/AngelSlim/HY-1.8B-2Bit-GGUF 技能陈诉: https://huggingface.co/AngelSlim/HY-1.8B-2Bit/blob/main/AngelSlim_Technical_Report.pdf 雷峰网版权文章,未经授权禁止转载。详情见转载须知。



