三三文章网 - 科技知识大全是专业科技新媒体网站。网站著眼于新一代科技新闻的全面及时处理报导,让网民在外面第二时间交待全球新一代的科技资讯。内容涵括AI+、互联网、IT、创业投资、核定、区块链、智能硬件等领域

AI预测心力衰竭,命中率竟然是100%!对AI研究的强烈疑问,网友:外行人滥用机器学习—量子比特

  • 时间:
  • 浏览:0

只需输入一次心率频谱。

一个人可以判断是否发生心力衰竭(CHF),准确率为100%。

这是领导英国华威大学的团队通过机器学习方法创造出的新成果。

在影响因素2.943的Biomedical Signal Processing and Control日志中也有记载。

准确率即将突破天际,反常识性高,引发豁达疑问:

主要疑点有两个:伪拟合(无规则、无规则)、伪数据泄漏(训练集与测试集重叠)

1天内Reddit论坛热议超过400:

好吧,让我们看看到底是怎么回事。

什么样的研究

这项研究是利用心电图(ECG)推断人是否患有淤血性心力衰竭(CHF),即人们常说的心力衰竭:

指心脏不能推动足够的血量以维持身体所需。

来自华威大学、佛罗伦萨大学和萨里大学的科学家们希望AI看看心力衰竭的心电图波形是否有规律。

因此,团队设计了一维卷积神经网络(CNN),使用公开的心电图数据集,对其进行训练,将其分为心电图两类:正常vs心力衰竭。

训练完成后,团队使用490505次心跳数据集对模型进行测试,结果训练集上的分类准确率达到99.9%:

论文指出,重要的是模型发现心力衰竭的心电图,有非常突出的形态特征可用于诊断:

但是,研究用数据集受到质疑,精度受到质疑,AI发现的重要特征也受到质疑。

实验的漏洞

乍一看,论文样本数似乎很大,论文作者采集了275974个正常ECG心率样本和214531个心力衰竭患者样本,总数达49万个。

但仔细一看,其实样本数量非常少,总共只有33人。一个人多个心跳不是独立样本。

心力衰竭患者数据来自BIDMC数据集,每秒采样250个样本,正常人数据来自MIT-BIH,每秒采样128个样本。

如果使用两个不同的数据集,则必须对一组数据进行下采样,以匹配另一组数据的频率。但是,研究人员注意到了这一点,在训练前做了预处理,但这里没有大的漏洞。

但是,在之后的训练过程中,产生了数据泄漏(Data Leakage)的嫌疑。

首先,数据集随机分为三个小子集,分别进行训练、验证和测试(相当于总数据的50%、25%、25%)

每个人的心跳数据只包含在一个数据集中,多个数据集中没有重复显示。因为作者知道,一个人的心跳数据出现在训练组和测试组两方面,有交叉验证的可能。

但这又带来了一个问题,测试集中只有少数几个人的数据。这相当于用单独的样本验证训练后的模型,结果的可靠性也会有很大的折扣。

为了保证结果能被更多的数据测试,作者还想到了另一种方法,对样本进行10次随机分割,分别进行10次训练和评估,以减少分类结果带来的差异性。

第一种方法避免了单一实验的交叉验证,但多次对实验进行平均化,就等于带回了交叉验证的问题,造成了数据泄漏(Data Leakage)

而且,对于作者仅具有33个样本的数据,使用3个1D卷积神经网络层进行了拟合,正确率几乎为100%,不得不认为是进行了拟合。

在训练集中避免了拟合,本来是“炼丹”过程中的常识,但作者被宣传为优点。难怪网友吐槽“这是外行写的机器学习论文”。

对于那些不是100%机器学习领域的人来说,这是一件令人惊讶的事情,但我们看到专家只会说“什么”。

这篇论文也发表在正式的期刊上,一位网友感叹:“评委的水平到哪里去了,这个问题看不出来吗?”。

另外,Hacker News也有人认为AI总结的2种心电图(正常vs心力衰竭)从根本上存在问题(@Cass)

被滥用了

这篇论文在Reddit中引起了激烈的争论。

随着机器学习的热销,许多其他领域的研究人员也开始使用机器学习模型来执行自己领域的任务。跨学科研究者如果对机器学习理解不足,就容易出现大问题。

例如,数据泄漏的问题让人想起了去年8月在Nature发表的预测余震的论文。来自谷歌和哈佛大学。今年,一位名叫Rajiv Shah的数据科学家用自己的实验证明了这一点。这篇文章是“深造的错误用法”。

他总共提出了三个致命缺陷:

最大的缺点是数据泄漏。算法在测试集上的表现远远超过了训练集。从数据集上看,我们发现了包含很多相同地震的测试集和训练集。剔除重复部分后,模型表达降至传统方法水平。

第二个缺点是,即使是一种简单的方法,比如随机森林,也得到了类似的表达和结论。可以用简单的方法,用复杂的方法,这是没有做消融实验(Ablation Studies)

第三个缺点是,论文使用470万行数据进行训练,Shah使用1500行数据,得到了几乎相同的表达方式。Shah认为,如果能用少量数据解决问题,就不应该使用成千上万倍的数据量。

这次重大疑问引起了业内的极大关注,甚至有不少同行前来寻找Bug。

10月2日,Nature又刊登了一篇质疑这一余震预测的论文,证明了一年前否定研究成果的神经元预测效果优于六层网络。

在这篇后续的论文中,他指出,只有使用两个参数的逻辑回归模型,才能达到与深度学习方法相同的预测能力。

机器学习是一个很好的工具,但在使用它们时,你必须充分了解它的特性、使用方法和局限性。不要一味地套用,要简单粗暴地进行数据拟合。

目前,机器学习正处于技术曲线的顶点,等热潮过去了,才能知道谁才是真正的干货。

新闻报道:

https://www.surrey.ac.uk/news/new-ai-neural-network-approach-detects-heart-failure-single-heartbeat-100-accuracy

https://www.forbes.com/sites/nicholasfearn/2019/09/12/artificial-intelligence-detects-heart-failure-from-one-heartbeat-with-100-accuracy/#228e5a067ac9

论文地址:

https://www.sciencedirect.com/science/article/pii/S1746809419301776

-结束了