人工智能能否拯救土耳其濒危的拉兹语?
由于年轻的拉兹语使用者很少,官方支持也很少,活动人士正在转向人工智能来帮助保护土耳其濒危语言之一:拉兹语。
安卡拉——在土耳其东部黑海沿岸雾气弥漫的山区和沿海城镇,曾经在小村庄的巷道中回荡的拉兹语,如今大多只在曾祖父母安静的家中流传,活动人士正转向人工智能,试图阻止它消失。
位于伊斯坦布尔的拉兹研究所一直在招募拉兹语志愿者,通过Mozilla的“通用语音”(Common Voice)项目训练人工智能学习拉兹语,以创建一个数字档案库,从而保护这种日益濒临灭绝的语言。然而,专家提醒,除了拉兹语之外,还需要其他方法,包括教育、机构支持和社区参与,才能使拉兹语得以传承。
拉兹语是一种卡特维尔语系或南高加索语系语言,主要通行于土耳其东北部黑海沿岸的里泽省(总统雷杰普·塔伊普·埃尔多安的家乡)和靠近格鲁吉亚边境的阿尔特温省。此外,土耳其西北部的马尔马拉地区和格鲁吉亚西南部部分地区也有少量使用。
土耳其的拉兹人常常与该国民间传说和笑话中流传已久的特质联系在一起:脾气暴躁、直言不讳,有时还有些爱想太多。土耳其著名喜剧演员杰姆·伊尔马兹(Cem Yilmaz)用一个关于黑海沿岸居民的轶事生动地展现了这种精神:当他向一位当地人问路去机场时,对方停顿了一下,回答说:“机场?你是说……飞机起降的那个机场吗?”
一种正在消逝的语言
除了这些戏谑的刻板印象之外,拉兹族人还面临着一个更为严峻的现实:他们正努力确立自身作为一个拥有语言、传统和习俗的独特社群的身份认同。联合国教科文组织将拉兹族列为世界遗产。 拉兹语被认定为“绝对濒危”,理由是其日常使用量减少、向儿童的传承减弱,以及在土耳其或格鲁吉亚均未获得官方地位。
由于土耳其不收集关于少数民族人口的官方数据,因此居住在该国的拉兹人的确切人数尚不清楚,但估计接近60万。据信,其中只有一半人会说拉兹语。
据伊尔凡·恰加泰(Irfan Cagatay)所著的《奥斯曼帝国晚期的拉兹人(1877-1923)》一书所述,拉兹语的衰落加速于现代土耳其共和国成立之后。该书是关于土耳其拉兹人身份认同的最全面研究之一。当时,国家建设的努力阻碍了人们使用拉兹语和其他少数民族语言。1924年,土耳其将土耳其语定为官方教学语言,其他穆斯林少数民族语言的教育在学校中被边缘化。
“土耳其当局将土耳其语视为团结的标志,并优先发展土耳其语的政府服务、学校和公共生活,”Cagatay 告诉 Al-Monitor。
恰加泰补充说,城市化使拉兹族群更深入地融入了土耳其社会。由于长期居住在黑海沿岸陡峭的山区,与世隔绝的拉兹族居民在日常生活中使用拉兹语的动力较小,而说土耳其语的理由则更多。
“最终,拉兹语变成了一种只在祖父母甚至曾祖父母家使用的语言,”他补充道。
教 Laz 人工智能
随着拉兹逐渐淡出日常生活,活动家们寻求新的方法来保护它,而拉兹研究所十多年来一直处于这些努力的前沿。
该研究所最新的举措是利用人工智能技术创建语言的数字档案。这项举措历时两年,旨在将 Laz 集成到 Mozilla 的 Common Voice 项目中。Common Voice 是一个开源平台,它利用普通说话者提交的录音来训练语音识别技术。
这张照片拍摄于2022年拉兹语教师培训期间(拉兹学院)。
“这个项目不仅对于提高拉兹语的知名度和提高人们对这种语言的认识非常重要,”拉兹研究所所长伊斯梅尔·阿夫奇告诉《中东观察报》,“而且对于建立一个重要的数据存储库也很重要。”
据Mozilla官网介绍,其于2017年启动的Common Voice项目最初旨在构建一个多元化的开放语音数据集,供任何人用于语音识别技术。随着时间的推移,该项目不断扩展,开始支持濒危语言和代表性不足的语言。Mozilla开放多语言语音基金在其网站上指出,截至2025年,Common Voice已收录超过140种语言的录音,其中许多语言资源匮乏或濒临灭绝,例如秘鲁的亚乌约斯克丘亚语、北高加索地区的图什语和喀麦隆的贝贝莱语。
通过 Common Voice,志愿者们会大声朗读短句,其他人会验证这些音频片段,经过验证的音频会成为公共数据库的一部分,供开发人员和研究人员使用。
Avci表示,该研究所希望将Laz引入这个生态系统,以确保其在数字世界中的地位,为此,他们准备了近10000个Laz句子,准备将其纳入数据库,其中约一半已经上传。
现在,该项目需要会说拉兹语的志愿者来录制句子。阿夫奇在土耳其独立新闻平台Bianet的专栏文章中呼吁拉兹语使用者参与这项计划。
阿夫奇告诉《中东观察报》:“即使最保守的估计,我们也需要大约250名志愿者,但实际上可能需要接近1000名。”他希望该项目能够加强社区联系,并在拉兹语使用者中引发广泛的动员。
该项目没有固定的时间表,其进展速度很大程度上取决于有多少志愿者挺身而出。
Laz的旅程:从边缘走向主流
土耳其长期以来将少数民族语言视为威胁国家统一的因素,尤其是在与库尔德人及其争取文化和语言权利的诉求导致土耳其与国家关系紧张的情况下。这种局面在20世纪90年代末开始转变,当时旨在推进土耳其加入欧盟的改革为文化表达开辟了一片虽小但意义重大的空间。来自阿尔特温的音乐家卡齐姆·科云库(Kazim Koyuncu)凭借其拉兹语专辑将拉兹语带入主流视野,该专辑于1995年为拉兹语赢得了第一个真正的全国性听众。
更大的 2012年至2015年安卡拉与库尔德工人党之间的和平谈判带来了转变。库尔德工人党自1984年以来一直为争取库尔德自治而发动武装叛乱。作为谈判开放的一部分,埃尔多安政府推行了政治改革,允许公立学校开设库尔德语和其他少数民族语言选修课。这是一个虽小但具有象征意义的举动,承认了土耳其的多语言现实。
Laz 研究所成立于 2013 年,抓住了这个机会,培训教师并收集了将 Laz 引入课堂所需的材料。
阿夫奇表示,里泽和阿尔特温最初开设的拉兹语选修课的热情最终消退了。由于缺乏学习拉兹语的动力,加上国家对少数民族语言课程的投入减少,教育部开始在课程中增加其他选修课,并将它们定位为比少数民族语言课程更实用的替代方案。
人工智能并非真正的灵丹妙药
在此背景下,教机器学习 Laz 语言充其量只是对一种受到威胁的语言的一种微弱的防御措施。
“当然,这项举措并不能消除拉兹失踪的危险,”阿夫奇承认道。
他说:“让人工智能学习拉兹语意味着只要数字世界存在,这种语言就能在数字世界中生存下去,即使它在日常生活中面临着消失的风险。”
据 9 月份发表在《麻省理工科技评论》上的一篇文章称,包括拉兹语在内的许多濒危语言都存在文档匮乏的问题,这可能导致人工智能训练不可靠。
文章指出,机器学习模型依赖于大型、高质量的标注数据集,而对于资源匮乏的语言来说,往往没有足够的文本、录音或经过验证的翻译来正确训练模型。
两位专家一致认为,最终,要保护 Laz,需要的不仅仅是人工智能或孤立的课堂努力。
“拉兹人需要积极的歧视,”卡加泰说,例如在拉兹人聚居的城镇的学校强制开设拉兹语课程,或者要求这些地区的某些公务员职位具备拉兹语知识。