“跳过的模型是无用的”;层、推理速度×3性能不变,谷歌MIT这个新方法火了-量子比特,
- 时间:
- 浏览:0
我用的是大的语言模型,推理速度太慢了吗
另外,即使增加了模型的体积,推理也不一定会比以前更好。
为了解决这个问题,谷歌MIT的研究者们设计了CALM这个新的框架,让他们自己决定计算量。
如果CALM注意到有“可有可无的层”的话,这些层就会跳过计算。
论文一登在网上,马上就火起来了。
一位网友表示,我们需要这样一种更智慧、更适应的模式。显然,CALM的解码器正在运行它。
“2002”直接输出中间层的“CALM”Confident Adaptive Language Modeling,即“置信”自适应大语言模型。
虽然该模型基于变换器,但为了加快计算速度,设计了一种名为“厄利exiting”的方法,该方法允许模型根据不同的输入动态确定在哪个层的网络上计算。
也就是说,在计算过程中,模型不是按层计算并输出结果,而是按中间层的特征直接输出令牌,这样可以减少模型的计算量。
那么,模特如何决定“停止”的时机呢。
你需要训练模型自己判断
其中,Yfull是标准模型的输出,Yearly是模型的“提前”时的输出。为了提高“年”效果,必须尽可能地与“年”匹配。
当然,根据任务的不同,文本输出的一致性也有差异,例如对于生成结果不那么严格(可以生成更多种语句)的任务,Yfull和Yearly的一致性并不是很高。
作者们也可以在论文中给出两个不同的公式,根据实际情况进行选择:
实际上,通过设置局部令牌[置信]度来检查对整个生成序列的影响。
在解码中,模型计算每个层的[置信]度c,其中cλ的规格化距离的幂函数λ进行比较。
如果你实际尝试一下这样的模型,你会怎嚒样
论文用CNN/DM、WMT、SQuAD三个数据集进行了测试。
其中,CNN/DM是新闻报道的数据集,需要输出一些文章摘要的结果;WMT15en-fr是机器翻译的数据集,主要是英文法译的结果。open-book SQUAD1.1是基于维基百科全书提问的QA数据集。
Tal Schuster表示,在保持相同性能的情况下,在CALM中使用的解码器层数平均下降了3倍。
对于这篇论文,一位网友表示:“的确,模式不需要总是“深思熟虑”。也有可以通过数段推理正确答案的情况“。
据作者介绍,这种解码加速的想法适用于任何Seq2seq模型。
本文作者共8人,分别来自谷歌和MITcsail,其中主要相关人员居第2位,tal schuster和Adam Fisch。
Tal Schuster博士毕业于MIT,作为谷歌的高级研究员,研究着机械学习模型的坚固性,可靠性,效率提高。
Adam Fisch、MIT博士生、本科毕业普林斯顿大学,研究方向是机械学习的不确定性量化、少样本学习等。
对大语言模型加速推理感兴趣的人可以戳到论文地址。
论文地址:https://arxiv.org/abs/2207.07061
参考链接:https://twitter.com/talschuster/status/1547966142412513282