MITamp;谷歌大脑使用AI解读丢失的古代文字，称为“现代版罗塞塔石碑；丨ACL2019-量子比特

时间:2023-04-18 09:14:37
浏览:0

尘土之下，隐藏着许多曾经辉煌的古代文明，但我们现在无法清楚地知道这些地方发生了什嚒。

了解这些历史的最好方法是找到他们的文字标记。However，一块刻有文字的石碑可以被考古学家们挖出来，但这些古文字究竟是什么意思，现代人并不清楚，需要语言学家们耗费青春去猜测。

现在，MITCSAIL和谷歌大脑的研究人员动手，他们用机器学习解读乌加里特文和线性文字B。

△乌加里特王宫

乌加里特文、Ugaritic是属于闪光片语族的楔形文字。正如字面意思一样，可以看出是乌加里特（Ugarit）这个文明使用的语言。这个文明是位于现在地中海沿岸的叙利亚，在公元前6000年左右出现，在公元前1190年左右灭亡。

△ 乌加里特文

线性文字B、LinearB是由人类尚未解读的线性文字A演化而来的，主要生活在公元前1500年至公元前1200年的克里特岛和希腊南部，是希腊语的古代标记形式。

△线性文字B

研究者们利用同一语族内不同语言之间的联系，用机器学习的方法解读这两种丢失的语言。这是一种解读古代语言的新方法，对罗曼语族的语言学研究也有很大的影响和提高。

这种方法令许多人惊叹：

PS、罗塞塔石碑是一块用三种语言写下相同内容的石碑，帮助语言学家们阅读古文字。

这项研究的核心方法是利用人类语言的相似性。

例如，知乎用户@啦啦队在介绍欧洲语言的相似性时，列举了如下栗子：

看，长相差别不多吗，毕竟属于印欧语系日耳曼语族，单词的分布位置、句子结构都很相似，如果你能理解一种语言，大概可以推测出与其“血缘”关系相近的另一种语言。

为了解读这两种文字，研究者们提出了一种基于文字的seq2seq模型。

该模型主要包括字符嵌入、剩余连接和单调数组规范化的一些部分。

但是，线性文字B的字母和希腊语必须对应。

然后，神经解码算法用于在具有不同语言特征的多种语言中提供强大的性能。

基于算法模型，必要的语料库除了需要解读的乌加里特文和线性文字B之外，还需要当前人类能够理解的语言。

研究小组需要选择包含三种语言（包括意大利语、西班牙语和葡萄牙语）的同源语音转录的罗曼语族数据库，并对它们进行同源检查。

因此，数据集使用上述内容。Symbols是指语言文字，Token是类似于语言学单词的存在。

运行成绩不错，在乌加里特文无噪声条件下优于现有方法3.1%，在有噪声条件下优于目前的贝叶斯方法5.5%。

另一方面，线性字符B在无噪声条件下高达84.7%，在更具挑战性的LinearB名称数据集中达到67.3%的精度。

在识别任务中，西班牙语精度提高3.4%，葡萄牙语提高1.6%。

是线性文字B的祖先，线性文字A没有被人类解读，被称为考古界的圣杯。

将来，如果这项研究有用，那么可以直接在机器上借用其他已知的人类语言来实现暴力解读，就像借用罗曼语族这三种语言的数据库一样。

想打破脑壳的语言学家们现在可以把工作重点放在别的事情上了。

该研究的一部作品JiamingLuo，在MITCSAIL读博客，专心于NLP研究。到现在为止也在北大从事着情绪分析的研究。

Luo是同学的导师，也是该研究的第三位作者Regina Barzilay。她是MITCSAIL的教授，2017年在NLP方面的研究中获得过麦克阿瑟的奖金，除了NLP之外，还在研究深入学习在化学和肿瘤学上的应用。

论文：

Neural Decipherment via Minimum-Cost Flow： from Ugaritic to Linear B

Jiaming Luo, Yuan Cao, Regina Barzilay

https：//arxiv.org/abs/1906.06718

代码和数据集：

https：//github.com/j-Luo93/NeuroDecipher

锂电池技术的关键突破：水淹火灾和强打短路都不会爆炸！三星看沉默，特斯拉乌尔来听流泪-量子位

元戎启银行获得近5000万美元贷款，军运会提供Robo、Taxi的驳斥服务-量子比特

MITamp;谷歌大脑使用AI解读丢失的古代文字，称为“现代版罗塞塔石碑；丨ACL2019-量子比特

猜你喜欢

腾讯数据中心节能黑科技吸引外媒关注巧用余热回收助力碳中和（腾讯数据中心创新节能技术获外媒瞩目：余热回收助力实现碳中和目标）

从张勇夫妇第四次IPO看海底捞的企业创新与竞争力提升

全国首座潮间带光伏电站并网发电：预计年发电量 1.5 亿千瓦时（全国首座潮间带光伏电站成功并网发电：预计年发电达一亿五千千瓦时）

富士X-M5国行价格揭晓，5699元起，你会入手吗？（富士X-M5国行全新上市：价格曝光，起售价5699元，心动不如行动！）

“百亿工程”进程中的江南布衣品牌定位与市场战略

阿里巴巴盈利增长的奥秘：商业模式与市场策略分析

华熙集团「星热纪ENTVERSE」APP登陆各大应用商店：加速虚拟现实破壁链路（华熙集团全新推出「星热纪ENTVERSE」APP：打破虚拟现实界限，应用商店火热上线）

投资4亿美元建厂国产面板一哥京东方也要转向越南？回应来了（京东方投资越南建厂传闻揭秘：国产面板巨头是否转战越南？揭晓投资细节）

腾讯数据中心节能黑科技吸引外媒关注巧用余热回收助力碳中和（腾讯数据中心创新节能技术获外媒瞩目：余热回收助力实现碳中和目标）

从张勇夫妇第四次IPO看海底捞的企业创新与竞争力提升

全国首座潮间带光伏电站并网发电：预计年发电量 1.5 亿千瓦时（全国首座潮间带光伏电站成功并网发电：预计年发电达一亿五千千瓦时）

富士X-M5国行价格揭晓，5699元起，你会入手吗？（富士X-M5国行全新上市：价格曝光，起售价5699元，心动不如行动！）

“百亿工程”进程中的江南布衣品牌定位与市场战略

阿里巴巴盈利增长的奥秘：商业模式与市场策略分析

腾讯数据中心节能黑科技吸引外媒关注巧用余热回收助力碳中和（腾讯数据中心创新节能技术获外媒瞩目：余热回收助力实现碳中和目标）

从张勇夫妇第四次IPO看海底捞的企业创新与竞争力提升

全国首座潮间带光伏电站并网发电：预计年发电量 1.5 亿千瓦时（全国首座潮间带光伏电站成功并网发电：预计年发电达一亿五千千瓦时）

富士X-M5国行价格揭晓，5699元起，你会入手吗？（富士X-M5国行全新上市：价格曝光，起售价5699元，心动不如行动！）

“百亿工程”进程中的江南布衣品牌定位与市场战略

阿里巴巴盈利增长的奥秘：商业模式与市场策略分析