AI字幕在儿童频道上吐“脏话采用比例高达40%，亚马逊谷歌均为祖安丨AAAI 2022-量子比特，

时间:2023-04-13 10:03:22
浏览:0

AI自动生成的字幕会偏离光谱到什么程度。

不仅把“螃蟹”（crab）误听为“废话”（crap、，还当场爆太：

“玉米”（corn）也可以翻译成p*rn……

要点在于，它们是AI在儿童节目中自动生成的字幕。

一项收录在AAAI 2022的新研究发现，7013个儿童视频中，近40%的节目出现了儿童不当、辱骂等词汇。

此外，在第113集的儿童机器人学习栏目中，AI“爆太”103次，平均接近1次！

对此，油管（YouTube、接受《连线》专访：

但是，如果有字幕需求，如何才能减少这个AI生成错误呢？

我们一起看看吧。

亚马逊谷歌两者都是祖安。首先，我们来看一下这篇论文的调查结果。

研究人员从油管中选出24个儿童频道，记录每个频道的播放量和订阅量。

可以看出，这些筛选出的视频播放量几乎达到了100万水平，订阅人数也同样不少。

然后，研究人员分别尝试了谷歌和AWS（亚马逊网络服务）的字幕生成效果。

结果显示，AI字幕的“少年不当”率偏离了光谱：

7013个视频中，谷歌AI错误字幕出现次数达2768次，接近40%。

亚马逊AI字幕错误率更高，达到3672次，超过52%。

具体来说，两个AI分别在这些“不恰当”的单词中容易出错：

△图左图亚马逊、图右图谷歌

在这些数据集中，有一个特别“孩子不好”的词，比如骂人的脏话。

我们人工检测的结果（如确认原视频是否真的骂人）表明，AI主要在以下情况下容易出错：

BGM喧哗者是婴儿说话者是儿童说话者是将英语作为第二语言说话者演唱的

△包括但不限于这些情况

那么有什么办法可以减少这种情况呢。

语序一致性错误为研究人员利用近音词构建禁忌词“替换”候选提出了一个新的数据集。

例如，对于“crap”这一可能出现的“粗话”，研究人员在其上设置了crab、craft等读音相似的单词，便于AI错误时替换。

具体而言，在BERT、XLM、XLNet等NLP模型中，对“完全填空”任务进行了再训练。也就是说，用“MASK”隐藏单词的一部分，让其填写与AI对应的内容。

结果，在语序正常、前后文案逻辑的视频中，AI置换精度较高（蓝色为正确的置换词）：

但在逻辑不强的文案中，成功置换的效果并没有那嚒好。

最终，诸如Megatron和Levenshtein的模型显示出最佳修复效果，分别为亚马逊AI带来超过25%的正确修复率，谷歌AI带来超过28%的修复率。

看来AI在字幕生成能力方面还任重而道远。

论文地址：https：//github.com/sumeetkr/UnsafeTranscriptionofKidsContent/blob/main/YouTube_Transcription_Final.pdf

参考链接：https：//www.dailymail.co.uk/sciencetech/article-10553233/YouTube-AI-putting-explicit-language-captions-videos-aimed-children.html

“跳过的模型是无用的”；层、推理速度×3性能不变，谷歌MIT这个新方法火了-量子比特，

元宇宙数字时代，“；坏人“；数字化了我们的账户安全怎么办？-量子比特，

AI字幕在儿童频道上吐“脏话采用比例高达40%，亚马逊谷歌均为祖安丨AAAI 2022-量子比特，

猜你喜欢

腾讯数据中心节能黑科技吸引外媒关注巧用余热回收助力碳中和（腾讯数据中心创新节能技术获外媒瞩目：余热回收助力实现碳中和目标）

从张勇夫妇第四次IPO看海底捞的企业创新与竞争力提升

全国首座潮间带光伏电站并网发电：预计年发电量 1.5 亿千瓦时（全国首座潮间带光伏电站成功并网发电：预计年发电达一亿五千千瓦时）

富士X-M5国行价格揭晓，5699元起，你会入手吗？（富士X-M5国行全新上市：价格曝光，起售价5699元，心动不如行动！）

“百亿工程”进程中的江南布衣品牌定位与市场战略

阿里巴巴盈利增长的奥秘：商业模式与市场策略分析

华熙集团「星热纪ENTVERSE」APP登陆各大应用商店：加速虚拟现实破壁链路（华熙集团全新推出「星热纪ENTVERSE」APP：打破虚拟现实界限，应用商店火热上线）

投资4亿美元建厂国产面板一哥京东方也要转向越南？回应来了（京东方投资越南建厂传闻揭秘：国产面板巨头是否转战越南？揭晓投资细节）

腾讯数据中心节能黑科技吸引外媒关注巧用余热回收助力碳中和（腾讯数据中心创新节能技术获外媒瞩目：余热回收助力实现碳中和目标）

从张勇夫妇第四次IPO看海底捞的企业创新与竞争力提升

全国首座潮间带光伏电站并网发电：预计年发电量 1.5 亿千瓦时（全国首座潮间带光伏电站成功并网发电：预计年发电达一亿五千千瓦时）

富士X-M5国行价格揭晓，5699元起，你会入手吗？（富士X-M5国行全新上市：价格曝光，起售价5699元，心动不如行动！）

“百亿工程”进程中的江南布衣品牌定位与市场战略

阿里巴巴盈利增长的奥秘：商业模式与市场策略分析

腾讯数据中心节能黑科技吸引外媒关注巧用余热回收助力碳中和（腾讯数据中心创新节能技术获外媒瞩目：余热回收助力实现碳中和目标）

从张勇夫妇第四次IPO看海底捞的企业创新与竞争力提升

全国首座潮间带光伏电站并网发电：预计年发电量 1.5 亿千瓦时（全国首座潮间带光伏电站成功并网发电：预计年发电达一亿五千千瓦时）

富士X-M5国行价格揭晓，5699元起，你会入手吗？（富士X-M5国行全新上市：价格曝光，起售价5699元，心动不如行动！）

“百亿工程”进程中的江南布衣品牌定位与市场战略

阿里巴巴盈利增长的奥秘：商业模式与市场策略分析