三三文章网 - 科技知识大全是专业科技新媒体网站。网站著眼于新一代科技新闻的全面及时处理报导,让网民在外面第二时间交待全球新一代的科技资讯。内容涵括AI+、互联网、IT、创业投资、核定、区块链、智能硬件等领域

“跳过的模型是无用的”;层、推理速度×3性能不变,谷歌MIT这个新方法火了-量子比特,

  • 时间:
  • 浏览:0

我用的是大的语言模型,推理速度太慢了吗

另外,即使增加了模型的体积,推理也不一定会比以前更好。

为了解决这个问题,谷歌MIT的研究者们设计了CALM这个新的框架,让他们自己决定计算量。

如果CALM注意到有“可有可无的层”的话,这些层就会跳过计算。

论文一登在网上,马上就火起来了。

一位网友表示,我们需要这样一种更智慧、更适应的模式。显然,CALM的解码器正在运行它。

“2002”直接输出中间层的“CALM”Confident Adaptive Language Modeling,即“置信”自适应大语言模型。

虽然该模型基于变换器,但为了加快计算速度,设计了一种名为“厄利exiting”的方法,该方法允许模型根据不同的输入动态确定在哪个层的网络上计算。

也就是说,在计算过程中,模型不是按层计算并输出结果,而是按中间层的特征直接输出令牌,这样可以减少模型的计算量。

那么,模特如何决定“停止”的时机呢。

你需要训练模型自己判断

其中,Yfull是标准模型的输出,Yearly是模型的“提前”时的输出。为了提高“年”效果,必须尽可能地与“年”匹配。

当然,根据任务的不同,文本输出的一致性也有差异,例如对于生成结果不那么严格(可以生成更多种语句)的任务,Yfull和Yearly的一致性并不是很高。

作者们也可以在论文中给出两个不同的公式,根据实际情况进行选择:

实际上,通过设置局部令牌[置信]度来检查对整个生成序列的影响。

在解码中,模型计算每个层的[置信]度c,其中cλ的规格化距离的幂函数λ进行比较。

如果你实际尝试一下这样的模型,你会怎嚒样

论文用CNN/DM、WMT、SQuAD三个数据集进行了测试。

其中,CNN/DM是新闻报道的数据集,需要输出一些文章摘要的结果;WMT15en-fr是机器翻译的数据集,主要是英文法译的结果。open-book SQUAD1.1是基于维基百科全书提问的QA数据集。

Tal Schuster表示,在保持相同性能的情况下,在CALM中使用的解码器层数平均下降了3倍。

对于这篇论文,一位网友表示:“的确,模式不需要总是“深思熟虑”。也有可以通过数段推理正确答案的情况“。

据作者介绍,这种解码加速的想法适用于任何Seq2seq模型。

本文作者共8人,分别来自谷歌和MITcsail,其中主要相关人员居第2位,tal schuster和Adam Fisch。

Tal Schuster博士毕业于MIT,作为谷歌的高级研究员,研究着机械学习模型的坚固性,可靠性,效率提高。

Adam Fisch、MIT博士生、本科毕业普林斯顿大学,研究方向是机械学习的不确定性量化、少样本学习等。

对大语言模型加速推理感兴趣的人可以戳到论文地址。

论文地址:https://arxiv.org/abs/2207.07061

参考链接:https://twitter.com/talschuster/status/1547966142412513282