MITamp;谷歌大脑使用AI解读丢失的古代文字,称为“现代版罗塞塔石碑;丨ACL2019-量子比特
- 时间:
- 浏览:0
尘土之下,隐藏着许多曾经辉煌的古代文明,但我们现在无法清楚地知道这些地方发生了什嚒。
了解这些历史的最好方法是找到他们的文字标记。However,一块刻有文字的石碑可以被考古学家们挖出来,但这些古文字究竟是什么意思,现代人并不清楚,需要语言学家们耗费青春去猜测。
现在,MITCSAIL和谷歌大脑的研究人员动手,他们用机器学习解读乌加里特文和线性文字B。
△乌加里特王宫
乌加里特文、Ugaritic是属于闪光片语族的楔形文字。正如字面意思一样,可以看出是乌加里特(Ugarit)这个文明使用的语言。这个文明是位于现在地中海沿岸的叙利亚,在公元前6000年左右出现,在公元前1190年左右灭亡。
△ 乌加里特文
线性文字B、LinearB是由人类尚未解读的线性文字A演化而来的,主要生活在公元前1500年至公元前1200年的克里特岛和希腊南部,是希腊语的古代标记形式。
△线性文字B
研究者们利用同一语族内不同语言之间的联系,用机器学习的方法解读这两种丢失的语言。这是一种解读古代语言的新方法,对罗曼语族的语言学研究也有很大的影响和提高。
这种方法令许多人惊叹:
PS、罗塞塔石碑是一块用三种语言写下相同内容的石碑,帮助语言学家们阅读古文字。
这项研究的核心方法是利用人类语言的相似性。
例如,知乎用户@啦啦队在介绍欧洲语言的相似性时,列举了如下栗子:
看,长相差别不多吗,毕竟属于印欧语系日耳曼语族,单词的分布位置、句子结构都很相似,如果你能理解一种语言,大概可以推测出与其“血缘”关系相近的另一种语言。
为了解读这两种文字,研究者们提出了一种基于文字的seq2seq模型。
该模型主要包括字符嵌入、剩余连接和单调数组规范化的一些部分。
但是,线性文字B的字母和希腊语必须对应。
然后,神经解码算法用于在具有不同语言特征的多种语言中提供强大的性能。
基于算法模型,必要的语料库除了需要解读的乌加里特文和线性文字B之外,还需要当前人类能够理解的语言。
研究小组需要选择包含三种语言(包括意大利语、西班牙语和葡萄牙语)的同源语音转录的罗曼语族数据库,并对它们进行同源检查。
因此,数据集使用上述内容。Symbols是指语言文字,Token是类似于语言学单词的存在。
运行成绩不错,在乌加里特文无噪声条件下优于现有方法3.1%,在有噪声条件下优于目前的贝叶斯方法5.5%。
另一方面,线性字符B在无噪声条件下高达84.7%,在更具挑战性的LinearB名称数据集中达到67.3%的精度。
在识别任务中,西班牙语精度提高3.4%,葡萄牙语提高1.6%。
是线性文字B的祖先,线性文字A没有被人类解读,被称为考古界的圣杯。
将来,如果这项研究有用,那么可以直接在机器上借用其他已知的人类语言来实现暴力解读,就像借用罗曼语族这三种语言的数据库一样。
想打破脑壳的语言学家们现在可以把工作重点放在别的事情上了。
该研究的一部作品JiamingLuo,在MITCSAIL读博客,专心于NLP研究。到现在为止也在北大从事着情绪分析的研究。
Luo是同学的导师,也是该研究的第三位作者Regina Barzilay。她是MITCSAIL的教授,2017年在NLP方面的研究中获得过麦克阿瑟的奖金,除了NLP之外,还在研究深入学习在化学和肿瘤学上的应用。
论文:
Neural Decipherment via Minimum-Cost Flow: from Ugaritic to Linear B
Jiaming Luo, Yuan Cao, Regina Barzilay
https://arxiv.org/abs/1906.06718
代码和数据集:
https://github.com/j-Luo93/NeuroDecipher