AI大时代下的创新,追一科技发布RoFormerV2模型
- 时间:
- 浏览:0
最近,追一科技发布了RoFormerV2模型,凭借其独特的旋转位置编码技术(RoPE),全面超越了BERT、RoBERTa、Albert、Electra等目前主流的预学习模型.在权威的中文NLP(自然语言处理)测试列表CLUE中,RoFormerV2仅拥有3亿个参数,超过了拥有超过10亿个参数的模型(截至2022年3月21日),也是前五名中参数最少的模型,基本上在同一尺度上实现了模型最优解。
RoFormerV2采用了与主流BERT、RoBERTa、Albert、Electra中使用的方法完全不同的独自旋转位置编码(RoPE)技术,RoFormerV2与这些模型有效地隔开了差距。旋转位置编码(RoPE)技术是追一于2021年提出的,利用向量间的旋转角度来表达特征间的相对关系,这种思路与以往所有方法不同,著名的技术御宅族组织EleutherAI认为RoPE是“革命性的”,具有先驱意义。谷歌在今年发表的FLASH模型论文中,明确指出RoPE极大地提高了模型的有效性,并将其作为模型的默认方法。RoPE被用于许多最近的模型,例如EleutherAI新发布的60亿和200亿参数GPT模型的RoPE位置编码。谷歌最近发布的5400亿参数的PaLM模型也采用了RoPE技术。Palm支持多语言,多任务处理格式,不仅可以理解人类语言,还可以理解机器语言。Palm已经在数百种自然语言理解和自然语言生成任务上进行了测试,在大多数任务上都取得了最好的结果。所有这些现代方法都采用了RoPE的设计,这将进一步验证其优越性,并有望成为预训练模型的标准方法。随着“大模型”时代的到来,很多用户都希望用好的模型来解决实际问题,但这些“巨头”都需要硬件配置和高投入。同时,使用“大模型”进行的NLP技术实验研究,计算能力和时间成本越来越高。无论是NLP技术的研究还是应用实践,Ching One Technology始终致力于参与和构建开放、开源的生态系统,帮助用户和开发者进行创新研究。由于RoFormerV2可以在有限的机器资源下进行训练和微调,并获得超出更大模型的效果,因此我们将其开源,供每个人用于研究,并继续为中文NLP的发展做出贡献。(来源:Fresh Finance)