“跳过的模型是无用的”；层、推理速度×3性能不变，谷歌MIT这个新方法火了-量子比特，

时间:2023-04-13 09:58:26
浏览:0

我用的是大的语言模型，推理速度太慢了吗

另外，即使增加了模型的体积，推理也不一定会比以前更好。

为了解决这个问题，谷歌MIT的研究者们设计了CALM这个新的框架，让他们自己决定计算量。

如果CALM注意到有“可有可无的层”的话，这些层就会跳过计算。

论文一登在网上，马上就火起来了。

一位网友表示，我们需要这样一种更智慧、更适应的模式。显然，CALM的解码器正在运行它。

“2002”直接输出中间层的“CALM”Confident Adaptive Language Modeling，即“置信”自适应大语言模型。

虽然该模型基于变换器，但为了加快计算速度，设计了一种名为“厄利exiting”的方法，该方法允许模型根据不同的输入动态确定在哪个层的网络上计算。

也就是说，在计算过程中，模型不是按层计算并输出结果，而是按中间层的特征直接输出令牌，这样可以减少模型的计算量。

那么，模特如何决定“停止”的时机呢。

你需要训练模型自己判断

其中，Yfull是标准模型的输出，Yearly是模型的“提前”时的输出。为了提高“年”效果，必须尽可能地与“年”匹配。

当然，根据任务的不同，文本输出的一致性也有差异，例如对于生成结果不那么严格（可以生成更多种语句）的任务，Yfull和Yearly的一致性并不是很高。

作者们也可以在论文中给出两个不同的公式，根据实际情况进行选择：

实际上，通过设置局部令牌[置信]度来检查对整个生成序列的影响。

在解码中，模型计算每个层的[置信]度c，其中cλ的规格化距离的幂函数λ进行比较。

如果你实际尝试一下这样的模型，你会怎嚒样

论文用CNN/DM、WMT、SQuAD三个数据集进行了测试。

其中，CNN/DM是新闻报道的数据集，需要输出一些文章摘要的结果；WMT15en-fr是机器翻译的数据集，主要是英文法译的结果。open-book SQUAD1.1是基于维基百科全书提问的QA数据集。

Tal Schuster表示，在保持相同性能的情况下，在CALM中使用的解码器层数平均下降了3倍。

对于这篇论文，一位网友表示：“的确，模式不需要总是“深思熟虑”。也有可以通过数段推理正确答案的情况“。

据作者介绍，这种解码加速的想法适用于任何Seq2seq模型。

本文作者共8人，分别来自谷歌和MITcsail，其中主要相关人员居第2位，tal schuster和Adam Fisch。

Tal Schuster博士毕业于MIT，作为谷歌的高级研究员，研究着机械学习模型的坚固性，可靠性，效率提高。

Adam Fisch、MIT博士生、本科毕业普林斯顿大学，研究方向是机械学习的不确定性量化、少样本学习等。

对大语言模型加速推理感兴趣的人可以戳到论文地址。

论文地址：https：//arxiv.org/abs/2207.07061

参考链接：https：//twitter.com/talschuster/status/1547966142412513282

00后博士毕业南大特任副研究员、网友翻论文闹-量子位，

AI字幕在儿童频道上吐“脏话采用比例高达40%，亚马逊谷歌均为祖安丨AAAI 2022-量子比特，

“跳过的模型是无用的”；层、推理速度×3性能不变，谷歌MIT这个新方法火了-量子比特，

猜你喜欢

全国首座潮间带光伏电站并网发电：预计年发电量 1.5 亿千瓦时（全国首座潮间带光伏电站成功并网发电：预计年发电达一亿五千千瓦时）

富士X-M5国行价格揭晓，5699元起，你会入手吗？（富士X-M5国行全新上市：价格曝光，起售价5699元，心动不如行动！）

“百亿工程”进程中的江南布衣品牌定位与市场战略

阿里巴巴盈利增长的奥秘：商业模式与市场策略分析

华熙集团「星热纪ENTVERSE」APP登陆各大应用商店：加速虚拟现实破壁链路（华熙集团全新推出「星热纪ENTVERSE」APP：打破虚拟现实界限，应用商店火热上线）

投资4亿美元建厂国产面板一哥京东方也要转向越南？回应来了（京东方投资越南建厂传闻揭秘：国产面板巨头是否转战越南？揭晓投资细节）

Baklib 新产品上线，开创数字内容体验新时代（Baklib全新数字内容体验重磅上线，引领数字时代新纪元）

新一轮科技竞争火热进行中，AI手机崭露头角，起步价透露品质竞争趋势

全国首座潮间带光伏电站并网发电：预计年发电量 1.5 亿千瓦时（全国首座潮间带光伏电站成功并网发电：预计年发电达一亿五千千瓦时）

富士X-M5国行价格揭晓，5699元起，你会入手吗？（富士X-M5国行全新上市：价格曝光，起售价5699元，心动不如行动！）

“百亿工程”进程中的江南布衣品牌定位与市场战略

阿里巴巴盈利增长的奥秘：商业模式与市场策略分析

华熙集团「星热纪ENTVERSE」APP登陆各大应用商店：加速虚拟现实破壁链路（华熙集团全新推出「星热纪ENTVERSE」APP：打破虚拟现实界限，应用商店火热上线）

投资4亿美元建厂国产面板一哥京东方也要转向越南？回应来了（京东方投资越南建厂传闻揭秘：国产面板巨头是否转战越南？揭晓投资细节）

全国首座潮间带光伏电站并网发电：预计年发电量 1.5 亿千瓦时（全国首座潮间带光伏电站成功并网发电：预计年发电达一亿五千千瓦时）

富士X-M5国行价格揭晓，5699元起，你会入手吗？（富士X-M5国行全新上市：价格曝光，起售价5699元，心动不如行动！）

“百亿工程”进程中的江南布衣品牌定位与市场战略

阿里巴巴盈利增长的奥秘：商业模式与市场策略分析

华熙集团「星热纪ENTVERSE」APP登陆各大应用商店：加速虚拟现实破壁链路（华熙集团全新推出「星热纪ENTVERSE」APP：打破虚拟现实界限，应用商店火热上线）

投资4亿美元建厂国产面板一哥京东方也要转向越南？回应来了（京东方投资越南建厂传闻揭秘：国产面板巨头是否转战越南？揭晓投资细节）