秘鲁天主教大学和马克斯·普朗克人类历史科学研究所的研究人员研究了机器学习算法使用一种语言中的单词列表来识别词汇借用的能力。发表在《PLOS ONE》杂志上的结果表明,仅当前的机器学习方法不足以进行借位检测,这证明需要额外的数据和专家知识来应对历史语言学最紧迫的挑战之一。
词汇借用或单词从一种语言直接转移到另一种语言已经引起了几千年的学者的兴趣,这在柏拉图的Kratylos对话中得到了证明,苏格拉底在对话中讨论了借用单词对词源学研究带来的挑战。在历史语言学中,词汇借用可帮助研究人员追踪现代语言的发展,并指出不同语言群体之间的文化联系(无论是近期的还是古代的)。但是,用于识别借用单词的技术却难以形式化,要求研究人员依赖各种代理信息以及多种语言的比较。
主持这项研究的约翰·马蒂斯·李斯特说:“词汇借用的自动检测仍然是我们在计算历史语言学中面临的最困难的任务之一。”
在当前的研究中,来自PUCP和MPI-SHH的研究人员采用了不同的机器学习技术来训练语言模型,这些模型模仿了语言学家在仅考虑一种语言提供的证据时识别借用的方式:声音或声音的组合方式当将它们与同一种语言的其他单词进行比较时,形成单词是非典型的,这通常暗示了最近的借用。然后将模型应用于世界贷款数据库的修改版本,该数据库是世界各地不同语言家族的40种语言样本的借入信息目录,目的是查看给定语言中的单词将被分类为:是否借用了不同的技术。
在许多情况下,结果令人不满意,这表明借词检测对于最常用的机器学习方法来说太困难了。但是,在特定情况下,例如在外来词比例很高的列表中或外来词主要来自单一捐助者语言的语言中,团队的词汇语言模型显示出一定的希望。
该研究的主要作者,PUCP的约翰·米勒说:“在进行了单语词汇借用的第一个实验之后,我们可以着手解决问题的其他方面,转而采用多语和跨语言方法。”
MPI的另一位共同主要作者Tiago Tresoldi补充说:“我们的计算机辅助方法以及我们即将发布的数据集,将为计算机辅助方法对语言比较和历史语言学的重要性提供新的认识。” SHH。
该研究与正在进行的努力一起解决了历史语言学中最具挑战性的问题之一,表明借词检测不能仅依靠单语信息。将来,作者希望开发出更好的集成方法,以考虑多种语言的信息。