来源:Languages 发布时间:2026/3/18 15:42:59
选择字号:
汉语“方言”与欧洲“语言”:词汇-语音与句法距离的比较研究 | MDPI Languages

论文标题:Chinese “Dialects” and European “Languages”: A Comparison of Lexico-Phonetic and Syntactic Distances

论文链接:https://www.mdpi.com/2226-471X/10/6/127

期刊名:Languages

期刊主页:https://www.mdpi.com/journal/languages

汉语的不同变体被称为‘方言’是一种惯例了,即使它们之间的差异可能大到无法互懂的程度。例如,常有人指出,粤语和官话之间的差异就大致相当于罗曼‘语族’中的葡萄牙语和罗马尼亚语之间的差异。”(Li & Thompson, 1981:2)

“(...) 如果一个人只会说粤语,而另一个人只会说官话,他们将无法交谈:他们说的实际上是不同的语言,其差异程度肯定和德语与荷兰语、甚至葡萄牙语与意大利语之间的差异一样大。”(Wardhaugh, 2008:32)

研究目的

本文旨在验证语言学文献中关于欧洲语言之间以及汉语方言之间相对差异的一些具体论断 (见上文引述),这些论断表明,汉藏语系中一些传统上被称为“方言”的语言变体,在语言学差异上实际上比一些传统上被称为“语言”的欧洲变体之间差异更大。更广义地说,我们旨在检验欧洲语系内部及跨语系变体之间的差异,是否大于汉语语言变体内部及跨变体之间的差异。

为此,我们不仅计算了成对语言之间词汇的重合度 (词汇距离),还计算了源自同一祖语的词汇在发音上的差异度 (发音/语音距离)——这是此类研究中常见的做法。我们还采用了一种创新计算方法来分析实际语言应用中的句法模式,并计算语序相似度的指标 (句法距离)。

研究方法

我们基于具有可比性的语料,对比欧洲语族和汉语方言的差异。欧洲语种有六种日耳曼语族、五种罗曼语族、六种斯拉夫语族语言,汉语方言有六种官话方言和九种非官话 (“南方”) 方言 (见表1)。

表1. 所研究的32种语言变体,分为五种语族或语支?

欧洲语言变体
汉语变体
日耳曼语 (族)
罗曼语 (族)
斯拉夫语 (族)
官话 (支)
南方方言 (支)
丹麦语
法语
保加利亚语
北京话
长沙话
荷兰语
意大利语
克罗地亚语
成都话
潮州话
英语
葡萄牙语
捷克语
济南话
福州话
弗里斯兰语
罗马尼亚语
波兰语
太原话
广州话
德语
西班牙语
斯洛伐克语
武汉话
梅县话
瑞典语
 
斯洛文尼亚语
西安话
南昌话
 
 
 
 
苏州话
 
 
 
 
温州话
 
 
 
 
厦门话

词汇语音差异:词汇差异和语音差异被整合为一个单一的词汇语音差异度量,即基于英语100个最常用实义词 (名词、形容词、完整动词、非形容词派生的副词) 及其在其他31种语言变体中的对应译文,通过计算长度标准化的PMI加权编辑距离 (Levenshtein distances) 得出的。简而言之,莱文斯坦距离 (字符串编辑距离) 计算将语言A中某个词的音标转换为语言B中其对应词的音标所需的最少的插入、删除和替换符号的操作次数,并将该次数表示为两个此类单词可能产生的最大编辑次数的百分比。词汇语音差异范围在0%到100%之间。0%表示:两种语言使用完全相同的词汇;100%表示:两个词汇完全没有一个相同的语音。

句法差异:句法差异通过皮尔逊相关系数 (或其补数,即1–r) 表示。该系数是基于四篇英语文本及其上述31种语言 (方言) 译文文本所建立的词性 (PoS) 三元组 (trigram) 频率计算得出的。词性 (PoS:Part of Speech) 指词汇类别 (例如,形容词、副词、修饰词、名词、动词等),从大约十二个类别中选择,这些类别涵盖了所有32种语言 (方言)。三元组是指在句子中三个连续单词对应的词性标注 (PoS tags) 组成的任何三元序列。该度量范围在0到1之间,其中r=1表示两种语言的语序完全相同,而r=0则表示语言A的语序与语言B的语序之间没有任何关联性。

研究结果

图1A-B显示了通过多维尺度分析计算得到的二维图谱,基于我们样本中所有 (32×31)/2=496对语言变体之间的词汇-语音差异 (图1A) 和句法差异 (图1B)。图谱上两种语言的位置越接近,表示它们越相似。

A. Lexico-phonetic distance B.Syntactic distance

结果显示:在两个图谱中,欧洲语言都能明显分为三个语系。此外,汉语变体 (位于图谱下半部分) 与欧洲语言差异显著。就词汇语音差异而言 (图1A),欧洲语言之间的差异程度与汉语变体之间的差异程度相当。罗曼语族和官话变体紧密聚集 (即彼此非常相似),而日耳曼语族和斯拉夫语族的语言分布则更为分散,汉语南方方言变体也呈现出类似的分散模式。然而,就语序 (句法,图1B) 而言,欧洲语言内部的离散程度 (差异) 远大于汉语变体,在汉语变体中,官话和非官话变体都在句法上都很相似。

成对比较 (详情见全文, Tang et al., 2025) 显示,粤语 (广州话) 与标准官话 (北京话) 之间的词汇语音差异,与诸如葡萄牙语-意大利语、葡萄牙语-罗马尼亚语以及荷兰语-德语等欧洲语言对之间的差异相当。然而,在句法上看,汉语各变体之间的差异比欧洲语言 (无论语系内部还是跨语系之间) 的差异小约二十倍。后一项发现为中国传统上将汉语各变体称为同一语言的“方言”提供了一定的合理性依据。

作者信息

姓名:汤朝菊

机构:电子科技大学外国语学院,中国

姓名:Vincent J. van Heuven

机构:莱顿大学语言学中心,荷兰;潘诺尼亚大学多语种博士院,匈牙利;弗里斯兰研究院,荷兰;格罗宁根大学语言与认知中心,荷兰

姓名:Wilbert Heeringa

机构:弗里斯兰研究院,荷兰

姓名:Charlotte Gooskens

机构:格罗宁根大学语言与认知中心,荷兰;新英格兰大学人文、艺术与社会科学学院,澳大利亚

参考文献

Li, Charles & Thompson, Sandra (1981). Mandarin Chinese: A functional reference grammar. Berkeley, CA: University of California Press.

Tang, Chaoju, Vincent J. van Heuven, Wilbert Heeringa & Charlotte Gooskens (2025). Chinese “dialects” and European “languages”:A comparison of lexico-phonetic and syntactic distances. Languages, 10(6), 127.

https://doi.org/10.3390/languages10060127

Wardhaugh, Ronald (2008). An introduction to Sociolinguistics (6th ed.). Malden, MA: Blackwell.

Languages期刊介绍

主编:Prof. Dr. Anthony Pak-Hin Kong, The University of Hong Kong, China; Prof. Dr. John Nerbonne, University of Groningen, The Netherlands

Languages (ISSN: 2226-471X)创刊于2016年,是一本国际化、经同行评审的开放获取期刊,旨在推动语言学领域的多学科研究,兼顾理论、实验及实际应用。期刊涵盖的主题领域包括理论语言学、实验语言学、心理语言学、神经语言学、社会语言学、语言习得等。目前已被ESCI、Scopus等多个数据库收录,并被ANVUR评定为Class A期刊。

2024 Impact Factor
1.2
2024 CiteScore
1.8
Time to First Decision
55.2 Days
Acceptance to Publication
9.6 Days
 
 
 
 
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
科学家揭开仙后座神秘X射线起源之谜 微观世界的“超级显微镜”
 科学家刷新锂离子电容器件低温运行纪录 科学家制造出可实时扭曲和控制光的芯片
>>更多
 
一周新闻排行
 
编辑部推荐博文