AI字幕在儿童频道上吐“脏话采用比例高达40%,亚马逊谷歌均为祖安丨AAAI 2022-量子比特,
- 时间:
- 浏览:0
AI自动生成的字幕会偏离光谱到什么程度。
不仅把“螃蟹”(crab)误听为“废话”(crap、,还当场爆太:
要点在于,它们是AI在儿童节目中自动生成的字幕。
一项收录在AAAI 2022的新研究发现,7013个儿童视频中,近40%的节目出现了儿童不当、辱骂等词汇。
此外,在第113集的儿童机器人学习栏目中,AI“爆太”103次,平均接近1次!
对此,油管(YouTube、接受《连线》专访:
我们一起看看吧。
亚马逊谷歌两者都是祖安。首先,我们来看一下这篇论文的调查结果。
研究人员从油管中选出24个儿童频道,记录每个频道的播放量和订阅量。
可以看出,这些筛选出的视频播放量几乎达到了100万水平,订阅人数也同样不少。
然后,研究人员分别尝试了谷歌和AWS(亚马逊网络服务)的字幕生成效果。
结果显示,AI字幕的“少年不当”率偏离了光谱:
7013个视频中,谷歌AI错误字幕出现次数达2768次,接近40%。
亚马逊AI字幕错误率更高,达到3672次,超过52%。
具体来说,两个AI分别在这些“不恰当”的单词中容易出错:
△图左图亚马逊、图右图谷歌
在这些数据集中,有一个特别“孩子不好”的词,比如骂人的脏话。
我们人工检测的结果(如确认原视频是否真的骂人)表明,AI主要在以下情况下容易出错:
BGM喧哗者是婴儿说话者是儿童说话者是将英语作为第二语言说话者演唱的
△包括但不限于这些情况
那么有什么办法可以减少这种情况呢。
语序一致性错误为研究人员利用近音词构建禁忌词“替换”候选提出了一个新的数据集。
例如,对于“crap”这一可能出现的“粗话”,研究人员在其上设置了crab、craft等读音相似的单词,便于AI错误时替换。
具体而言,在BERT、XLM、XLNet等NLP模型中,对“完全填空”任务进行了再训练。也就是说,用“MASK”隐藏单词的一部分,让其填写与AI对应的内容。
结果,在语序正常、前后文案逻辑的视频中,AI置换精度较高(蓝色为正确的置换词):
但在逻辑不强的文案中,成功置换的效果并没有那嚒好。
最终,诸如Megatron和Levenshtein的模型显示出最佳修复效果,分别为亚马逊AI带来超过25%的正确修复率,谷歌AI带来超过28%的修复率。
看来AI在字幕生成能力方面还任重而道远。
论文地址:https://github.com/sumeetkr/UnsafeTranscriptionofKidsContent/blob/main/YouTube_Transcription_Final.pdf
参考链接:https://www.dailymail.co.uk/sciencetech/article-10553233/YouTube-AI-putting-explicit-language-captions-videos-aimed-children.html