内容摘要:
关键词:
作者简介:
内容提要:汉语方言的语音研究中经常用到实验语音学,但却常常存在两大误解。其一,觉得实验语音学就是做测量,做统计分析的,将语言学范畴图解一下,好像就是实验语音学了;其二,觉得实验语音学是研究偏僻音类的,好像只有偏僻、稀奇的音才需要实验研究,以补“口耳之缺”。本文指出,实验语音学并不是音类的简单图解,语音学测量与统计必须有语言学意义上的考量。汉语方言的实验语音学研究就是以现在的语音科学实验手段探寻方言语音中的音类、音值区别的性质与规律:这些音的物理特性是什么?发音上是如何实现的?感知上有什么特点?而不是简单地验证记音的准确性,更不是为了寻找僻见的语音。汉语方言的实验语音学研究是语言学研究的一个独立的子学科,实验语音学测量所提供的语音细节为我们观察语音现象提供了新的方法论上的可能性。语音作为人类语言的物理载体具备了具体、变异的特性,不再像以往概念化似的那般抽象。语音的物理特性与语言学范畴之间并不存在简单对应的关系,而是交融着语音产生机制与语音感知特性的复杂映射关系。
关 键 词:实验语音学;证据导向;新描写主义
作者简介:胡方,中国社会科学院语言研究所。
零 引言
语言学属于人文科学(Humanities)范畴,其研究旨趣在于描写语言事实并进行总结,是一种归纳推理导向的研究范式(a generalization-based approach);实验语音学则属于实验科学范畴,其研究旨趣在于以生理、物理、心理实验为基础,对语言中的语音现象进行描写或者解释,是一种证据导向的研究范式(an evidence-based approach)。无论采用哪种研究范式,任何科学研究的核心任务都是为人类提供新知识,也就是创新。那么,在汉语方言的语音研究上,实验语音学可以提供什么样的新知识?换句话说,研究方言语音为什么需要实验语音学?
汉语方言的语音研究是在高本汉(1915-1926)、赵元任(1928)开创的传统的基础上发展起来的。这个传统是描写主义的,科学与人文并重。研究者主要基于口耳之学的听音辨音,记录汉语方言材料,整理方言音系,并结合汉语历史音韵,厘清汉语方言的发展关系及地理分布特点。这一传统的研究范式为我们了解汉语方言的基本面貌和特点提供了宝贵的第一手的资料。这种研究自1949年以来,尤其是在改革开放之后取得了丰硕的研究成果。
语言学领域的实验语音学研究也有源远流长的口耳之学的传统,但自20世纪以来,其学科发展渐渐走上了一条实验科学的道路,而且越来越呈现出跨学科的特点。不用说语音工程、人工智能等领域的研究,就是偏语言学本身的语音学研究,也普遍遵循实验科学的一般范式,对语音进行采样测量,对数据进行统计分析,进而对语音现象进行描写与解释。实验科学在传统语音研究领域的发展为我们观察人类语言中的语音现象提供了新的理论视角与方法工具。
那么,实验语音学究竟提供了怎么样的新东西呢?首当其冲的便是语音数据的采样,尤其是作为语言物理外壳的语音音频数据的采集,现代科技的发展为我们提供了极大的方便,以前需要专业录音设备才能完成的任务,现在可以在便携电子产品上轻松实现。
新技术不仅仅提供新的方法,而且在语言研究的哲学层面带来基础理论的变革。结构主义以来的语言学传统区分“语言”(language)与“言语”(speech),定义前者是抽象的语言能力(生成学派术语中的linguistic competence),后者则是具体的产出(linguistic performance);语言学研究的是“语言”,而不是“言语”。吊诡的是,语言学研究的材料都是“言语”;而根据“言语”来研究“语言”,在语言学的研究中这一设定是不需要进行论证的。比如说,作为语言基本单位的“音位”(phoneme)的概念,直接就被认为是人脑中固有的抽象物,可有更抽象的“区别特征”(distinctive features),而同时,“音位”的物理产出物“音素”(phone)则只是一些对语言学核心任务来说不大重要的“变异”(variations)。更为关键的是,在学科立论(argumentation)上,也不需要从具体的言语产出(speech production)去对语言学上的音类(即人类储存在大脑中的语音类别)进行论证。与此相反,实验语音学则认为这是需要论证的,抽象的音类是建立在对采样数据的科学论证基础上的;丰富的实验语音细节(fine-grained phonetic details)改变了我们的语音观、语言观。
实验语音学为方言语音研究带来的创新之处,表面上看,最显著的就是对数据的测量、统计了。那么,我们的任务就是做测量,做统计,通过数据的可视化图解语音范畴或者语音现象么?例如经常可见到一些声调研究,测量了若干人的声调的基频曲线,通过平均、归一方法画出来,据说便能和声调的五度值对应了;然后便是结论,讨论一下和传统的口耳之学的方言学记音有什么异同。这是非常危险的,因为语音的声学参量与语言学意义上的语音范畴之间并不是简单对应的关系。或者增加发音人中男女、年龄或者其他社会属性的不同,再复杂一些,比较一下另一方言的类似情况,然后就开始谈语音的性别差异、年龄差异,甚至语音演变等,那就更加危险了。语音的物理参量的采样、测量、统计本身并没有错,数据可视化也是实验语音学研究中常见的手段;但实验语音学并不是为测量而测量,为统计而统计,实验语音学遵循实验科学的一般方法,最为关键的是,实验语音学的测量与统计必须有语言学意义上的考量。
关于实验语音学对方言研究的用处,一个广泛被接受的说法是“补口耳之缺”;这是从前文所言“通过言语来研究语言而不需要进行论证”的立场出发说的。事实上,从事方言调查工作的学者对于实验语音学最大的需求可能就在于此,因为即便是调查经验丰富的学者,有时也会希望借助语音实验来确定或证明某个难记的音。但非常遗憾,实验语音学往往不能直接给出答案,因为我们的语言观、语音观是:语音的本质不是抽象的音位、音位变体或区别特征所能完全概括的,语音是具体的、变异的。“补口耳之缺”这个说法的另一个问题是其预设,即常见的音类是不需要实验语音学的,只有僻见的语音才有必要引入实验研究。这也是错误的想法,实验语音学并非只研究僻见的语音现象,而是要对一切语音现象做系统、全面的研究。
实验语音学对于语音研究的创新就在于直面“通过言语来研究语言”这一语言学的二元论问题。在一般语言学的理论框架中,作为语言基本单位的音位及其区别性主要是从心理的角度,通过思辨推理来定义的,即音类在语言或大脑中的表征(representation)是通过逻辑推理,而不是实际的发音生理和感知心理实验来论证的。在这个框架之下,语言具有自主性(autonomy)。有一个著名的比喻:一副象棋缺个子儿,无论是车、马,还是将、相,拿块石子代替即可。也就是说,重要的是系统与功能,具体语言单位的确切物理值对语言系统来说一点儿都不重要。在这种语言观背景下,实验语音学研究除了验证音类的音值之外,确实没有太多其他的用武之地,况且验证音值本也不是语言研究的核心问题。有意思的是,持这种语言观的学者往往觉得用实验的方法验证音值并不是件难事,因为他们认为语音与声学参数之间存在着简单的对应关系。但事实上,在实验语音学的研究范式中,音位,或者宽泛一点的“音类”,与研究中容易采样、测量到的语音声学数据之间,并不存在直接的对应关系,因为二者之间隔着语音产生(speech production)与语音感知(speech perception)两大科学问题。而且,近些年的实验研究表明:大脑中处理语音产生与感知是由不同的区域与机理控制的(Bouchard等2013;Mesgarani等2014)。尽管在实验语音学领域,一直不断地有理论试图建立语音产生与感知之间的关系,阐释二者之间的相关性甚至一致性,比如语音感知的运动神经理论(The motor theory of speech perception,参见Liberman等1967;Liberman & Marttingly 1985和1989;Liberman & Whalen 2000;Galantucci等2006)、语音产生的量子理论(The quantal theory of speech production,参见Stevens 1972,1989)等,但是,语音产生与感知毕竟是由独立机制控制的,而二者之间的不一致性可能就是造成各种语言的语音多样性的原因之一,比如Ohala(1981,1993)就试图从感知误差去解释语音演变,认为这是语音演变的主要原因。
实验语音学的研究就是用实验科学的方法描写人类语言中的语音现象,作为一个多学科共同关心的研究领域,其研究旨趣可以有不同的取向——可以是偏描写性的(descriptive approach),描写世界语言中的语音多样性与普遍性;又可以是偏实验性的(experimental approach),也就是把言语作为实验材料,测试大脑中与语音相关的语言能力。语音产生与语音感知是人类大脑的固有功能,在大脑中由相应的模块与机制控制,受语音产生与感知机制控制的音类在具体的语言中如何组织成系统,成为语法的一部分,便是语言的音系(phonology)了。偏描写性的实验语音学的主要任务就是描写这个“从大脑至语言/言语”的过程;而偏实验性的实验语音学则有“从言语/语言至大脑”的意味,旨趣上更偏向解释性。
本文主要以汉语方言中的语音现象为研究对象来谈语音学,在实验语音学中大体上属于偏描写的、偏语言学的研究取向。虽然偏描写,但与传统的方言学描写不同,这就是:我们提倡一种“新描写主义”的方法——实验描写主义。生成学派(Chomsky & Halle 1968)区分语音(phonetics)与音系(phonology),并认为语音学是研究语音的,主要是语言外部(linguistic external)的内容,音系学是研究音系的,是语言内部(linguistic internal)的内容。但如前所述,我们的语言观与此不同,本文所谈论的实验语音学研究包括语言的语音与音系,即大体采用Ohala(1991,1995)所倡导的取向。简要地说,就是以语音科学实验手段探寻方言语音中的音类的性质与规律:这些音的物理特性是什么?发音上是如何实现的?感知上有什么特点?不是简单地将原来研究的音类画一个图,统计一下,验证一下记音的准确性;更不是为了寻找某些僻见的语音。汉语方言的实验语音学研究是语言学的一个独立的子学科,兄弟学科会发现它的研究成果对自己有用,但它本身并不是为别的学科服务的。
当我们谈论实验测量、统计的时候,我们在谈论什么?必须明白:我们仍是在谈论语言学,只是,这是一种跟原来的非实验传统有些不一样的语言学。
壹 发音人在干什么?——从语音基本单位出发
实验语音学的终极目标是从科学上弄清楚:发音人在干什么?把这通俗的话语换成科学术语,首先就是语言/语音的基本单位问题:它是相对连续的某一个整体,比如音节(syllable)?还是离散的、抽象的一个一个音段(segment)/音位或者其他更基本、更抽象的组成成分?同时提出的是语音单位的真实存在性问题,即它们在大脑/语言中的表征(representation)问题。
这不是个容易的问题。做田野语言调查的学者,不可能奢望发音合作人跟你解释某个音是怎么发出来的,因为他根本不知道自己在干什么(比如实现哪个目标),他只是自然而然地就发出音来了。受过专业训练的田野语言学工作者,往往反复模仿发音人的发音,直到发音人完全认可,然后根据自己模仿的发音来进行记录。这里牵涉到一个理论假设,即语音感知的运动神经理论:只有当你能正确地发某个音的时候,你对这个音的感知才是正确的。但这个理论在语音感知领域支持者不多,因为论断太强了;一般的语音感知其实并不需要同时唤醒发音器官的运动神经。语言学家则多喜欢这个理论,因为传统口耳之学的描写语音学正是强调通过发音训练来感知陌生语言的语音,相信通过自己的口腔实践可以找到各类语音发音时的肌肉内省感(proprioceptive sensation)和发音器官的触碰感(tactile sensation)。但有一些语音学家不大相信这些,而认为声学-听感是更重要的相关物。比如当你训练正则元音[i-e-ε-a]时,他们认为逐一下降的其实并不是舌头的位置,而是你的听感声学距离(参见胡方2008)。
问题的复杂性在于,语言发音这件事情牵涉的不仅仅是生理发音(发音器官的运动),而是生理发音受运动神经控制(speech motor control)、感知声学调节的综合结果;而且,语音还受到更高层级的语言学与认知层面的制约,因为语音本身也是语言的语法的一部分。对于“发音人在干什么”这个问题,广义的回答包括以上诸多层面,在科学研究上需要厘清的是,我们是在哪个层面上回答这个问题。一方面,可以从语音产生(speech production)的角度进行回答:在运动神经控制层面,就像每个人写字的笔迹不同,发同一个音,发音人可以有不同的运动神经控制模式;运动神经控制的输出就是可以测量到的发音动作,进而就是发音位置的不同,这就是一般所说的狭义的发音的不同。另一方面,也可以从语音感知(speech perception)的角度思考发音与声学上的不同是如何被感知的。
从目的论的角度看,发音是为了实现感知声学目标;不过,这会把问题过于简单化了。其一,大脑中控制语音的产生与感知的机制是不同的(Bouchard等2013;Mesgarani等2014)。其二,发音与声学之间的关系不是一对一的。Stevens(1972,1989)将这种非线性关系理论化为发音与声学之间的量子特性(quantal nature)。其三,即便是量子特性,发音与声学关系也存在着发音人之间(inter-speaker)与发音人内部(intra-speaker)的变异(variations),而且,还可能跟特定发音所涉及的生理解剖相关(Perkell 1996);近年的研究发现,个体的不同是发音与声学关系、产生与感知关系的一个重要变异源(Fuchs等2015)。目的论在语言学中很流行,因为语言学的论证一般是基于直观推理的,而不是实验科学,诚如Jakobson和Waugh(1979)所言,“We speak in order to be heard and need to be heard in order to be understood”(我们说话是为了让人听见,需要让人听见是为了被人理解),因此从语言是交际工具这个角度出发,目的是决定性的。在目的论的逻辑看来,发音人自觉或不自觉地运用某种发音策略,所产生的语音具有客观的声学特性、感知特性,其目的是实现该语音的音系地位,即该语音在目标语言中的区别性。也就是说,语言学将整个发音过程简化为实现音位的区别对立性了。但是,这个实现过程并不简单。更为复杂的是,发音人并不是想做什么就能做到什么,比如我们常会发现:怎么有些平调的基频曲线有点降呢?怎么浊塞音在语图上不是百分之百有浊音杠呢?怎么单元音的共振峰轨迹有时也会有动程呢?
简言之,非实验的语言学建立在语音的区别性之上,具有区别性的音构成语言中不同的音类,整个现代语言学大厦便矗立在此基础之上;而基于实验的语音学研究则要回答:这些音类是怎么样的,如何产生,如何感知,如何在语言中构成系统。我们可以暂且先把发音策略、感知特性等问题放在一边,从语音声学(speech acoustics)出发,测量语音(phones or sampled segments)的声学特性,观察语言中的音类是怎么样的。这个过程,从语言学的角度看来,就是观察语音的区别特性如何实现①!在具体操作上,我们采样的是个体的语音,但我们要描写的其实是语音的类(phonetic category),音系上的自然类(natural class)。因此,在检视所采样的语音的声学参数时,“发音人在干什么”这个问题便具体化为:哪些声学特性在我们所研究的目标语言中是具有区别音类的作用的?哪些又是冗余的?



看图1。头两行先逐个表现发音人的声调基频曲线均值(第一行依次为五位男发音人,第二行依次为五位女发音人)。数字代表调类:1阴平、2阳平、3上声、4阴去、5阳去、6阴入;横坐标是采样的10个点,纵坐标是赫兹值。第三行开头两图是分性别的发音人均值(左男中女)。发音人的基频幅度均有160赫兹左右,其中男发音人约在100-260赫兹之间,女发音人约在130-290赫兹之间。所有人的基频曲线总结为第三行右图。
先来看祁门方言的三个平调。只有记为[-1]33的阳去的基频曲线大致是平的,男发音人均值约在163赫兹,女发音人均值约在216赫兹;当然,在不同的个体发音人中,也有一些变异的情况,比如在女发音人1中,它是下倾的,在女发音人4中,它有个下降的调头,在男发音人2和女发音人5中,它有个上升的调头,等等。记为
的阴平调在大部分发音人中都是下倾的,也就是说,从基频曲线看,它是个低降的调形:男发音人约从144赫兹下降至131赫兹,女发音人约从202赫兹下降至175赫兹。而记为
的阳平调从基频曲线上看则是个升降型曲折调形,根本不是平的。

那么,它们是平调么?答曰:是的。我们认为,正因为祁门有三个平调,所以其中有两个平调在基频曲线上才不实现为平的调形!音系特征有“偶值理论”,但祁门的平调是典型的三值。中平实现为平实的基频曲线(plain level);低平略带缓降;高平在基频上特别高,发音人往往会运用特别的发声态“假声”(falsetto)来实现:男发音人阳平最高基频均值是256赫兹,女发音人是284赫兹。需要注意,无论是假声还是基频曲线的曲折,都是发音人为实现这一特高音调目标(pitch target)所使用的策略,而并不是假声这个发声态具有什么重要的语言学意义。换言之,祁门方言“高、中、低”三个平调对立是通过发音人运用不同的发音策略来实现的。
与祁门类似的有尼日利亚的Yoruba语(Hombert 1976a,1976b)和泰语(Abramson 1962)。Yoruba语仅有的三个声调,基频曲线也是低调降、中调平、高调升降(但基频没有祁门那么高),但它们都是音系上的平调;泰语有与Yoruba类似的三个平调,另还有一个升调、一个降调,系统上更接近祁门(参考Abramson 1972,1975,1976,1978)。
上声是祁门唯一的降调,其前半部分(约首45%时长)缓降,后半部分速降:男发音人约从190赫兹下降至110赫兹;女发音人约从241赫兹下降至137赫兹。而且无论男女,上声的最低点就是声调的最低点,即调域的下限。从这个意义上讲,上声记成
更妥一些。
祁门的阴去和阴入调形相同,为降升曲折型。两个声调的调头几乎相同:男发音人阴去的调头下降约9赫兹,阴入的调头下降约10赫兹;女发音人阴去的调头下降约17赫兹,阴入的调头下降约10赫兹。两调的调形区别仅在于上升的幅度,阴去上升不足30赫兹,而阴入则上升约79赫兹。就是说,祁门的两个升调的调头相同,唯高升调(阴入)升得高,低升调(阴去)升得低。祁门方言明显不支持所谓“调域理论”(Yip 1980;Bao 1999),这个理论认为一个语言内应避免拥有相同的调头或调尾的声调,而祁门的两个升调恰恰如此,而且阴入调贯穿低-高两个调域。刘丹青记为降升调
,保留了语音细节;我们则认为在音系上可以将这两个声调记为
。有两个理由:首先是两个声调的调头相同,都是低降升,而低升调拥有一个略降的起始符合其产生与感知特点(Shen & Lin 1991);其次,如果记成降升调,祁门方言便没有升调,不符合类型学的一般规律,基于“剃刀原则”,音系上还是处理为两个升调为妥。
基频是声调最直接的物理关联物,但并不直接等同于声调。检视一个语言或方言的基频样本时,应该思考:它的声调对立是什么?对立是如何通过基频来实现的?而不是简单地根据基频曲线来折算出五度值。要完整回答这个问题,还需要考虑声调的心理感知问题。我们常常发现:人耳对于基频上升与下降的感知是不同的,基频升高10赫兹很容易被感知为明显的升调,但基频降低10赫兹则基本还是会被感知为平调;而调头、调尾及相关的感知问题可能更加复杂(参见Hombert 1978;Gandour 1978)。
总之,方言语音的实验语音学研究的目的并不是简单地将音类具体化、数字化或者图形化,而是借助音类(上例是声调)的物理关联物(上例是基频曲线)更为直观地分析、寻找语音之间区分的语言学意义所在。同时我们也看到,语音细节可以帮助我们更好地理解音类之间的区别,而不仅仅是验证记音、补口耳之缺,尽管实验语音细节确可以修正口耳记音中的偏差。需要注意的是,有些偏差在语言学意义上无关紧要,比如祁门的上声是记成
调还是
调;但也有些偏差是具有一定的理论意义的,比如上文对于调域的讨论。
贰 实验语音学不是只研究疑难冷僻音类,而是研究所有语音问题
对实验语音学的一个常见误解是认为只有那些不常见的、奇怪偏僻的语音才需要做实验,似乎实验语音学是专门针对疑难杂症的。我们必须强调:并非如此!不是说发现哪里有内爆音、哪里有嘎裂音就有意义,要弄明白内爆了、嘎裂了又如何,这才是有意义的。比如上文谈及祁门的假声的语言学意义,并不在它本身,而在于它是说话人实现高平音高目标的发音策略之一。
实验语音学研究所有的语音现象,所以说汉语方言语音的实验语音学是“阵地战”,是在新的语音观、语言观的指导下,使用实验科学的方法,全面研究方言语音问题。下面简要地说一个单、双元音的问题(双元音又可分为降峰双元音、升峰双元音等②)。单元音、双元音都是汉语方言中常见的,不是什么偏僻的问题。
类型学研究一般依靠单元音韵母及复合元音韵母、鼻音尾或塞音尾韵母的韵腹来观察元音音位。但是,这样的研究有时会得出误导性的结论。比如梅县客家话只有6个单元音[
i e a o u],Zee&Lee(2007)和叶晓锋(2011)都把客家话归类为元音最少的汉语方言。但机械地以单双元音分类为纲,会割裂元音音位对立的音系本质。在江西,有11个单元音的客家方言(张倩2013),似乎与梅县截然不同。但梅县还有5个降峰或平峰双元音[ai
ui au εu],在我们看来它们也是元音音位,因此梅县客家话也是11个元音音位(Zhang & Hu 2015)。最荒唐的一个例子来自著名的《科学》(Science)杂志。Atkinson(2011)撰文力图证明世界语言的多样性分布与人类的基因图谱相吻合,以此支持人类非洲起源说。他的理论假设是,越古老的语言其语音也越复杂,元音个数越多的语言便是越古老的语言;根据他的计算,全世界的语言正好符合他的理论。此文遭到诸多批评,其中Wang等(2012)提出:按照Atkinson的逻辑,亚洲才是语言起源的地方,一个重要的证据就是吴语元音的复杂性。在他们的统计、计算中,元音都只包括单元音,这便是得出荒谬结论的一个根本原因之所在。
关于双元音的性质,很早便有讨论(Pike 1947;Lehiste & Peterson 1961;Holbrook & Fairbanks 1962)。大致有两种观点:一是认为双元音是一个单独的元音,它的核心在语音上是复杂的(Malmberg 1963;Abercombie 1967;Catford 1977);另一种观点则认为双元音就是两个元音成分或者一个元音成分和另一个半元音成分的组合序列(Sweet 1877;Jones 1922)。前者将双元音视为单一发音事件,只有一个动态的目标;而后者则将双元音看成是两个发音事件,从一个静态的目标过渡到另一个静态的目标。
降峰双元音和升峰双元音在语音或音系上的表现往往是不同的。赵元任(1928:65-66)早就指出:吴语中只有降峰双元音才是“真复合元音”,升峰双元音不是。事实上,无论在历时或共时层面都常常能发现,降峰双元音可以和相应的单元音形成交替(alternation),升峰双元音则不然。最常见的如/ai/与/ε/、/au/与/
/之间的交替,在晋语、吴语等方言中都很常见。我们最近的研究明确指出:升峰双元音拥有两个目标,因此[ia]应视为[i]与[a]的序列;而降峰双元音则只有一个动态的目标,因此,[ai]并不是[a]与[i]的序列,而是一个整体的元音,与[a]、[i]等单元音构成音位对立(胡方2013)。我们并不认为这个结论放之四海而皆准,相反,我们期待不同的语言/方言存在不同的情况。比如说,我们认为北京话的/ai/是一个动态目标,是一个整体的元音音位,而英语的/ai/就可能是[a]加[i]的序列。③
这里举例表明如何通过语音观、语言观的革新,通过语音数据的采样,借助看似简单、枯燥的声学测量,将以前口耳之学中只能意会的一些内容展示出来,进而可以比较各方言中的各类单元音、双元音,以及一切其他音类,厘清一些事实。下面是一个西南官话的例子(邱玥、胡方2013)。四川隆昌话属西南官话江贡小片,有韵母36个,如下:
。
我们对所有的韵母进行了声学录音采样,选取含有目标元音的单音节字,并尽量选取阴平调、零声母或唇音声母字,嵌入“_,读_三遍”的载体句中。录音在实地调查中进行,有效样本来自5男4女共9位发音人,均为20-25岁的青年,从小在隆昌县长大,母语为本地方言,也学过普通话和英语,属于典型的隆昌青年口音。录音使用Sony D50线性录音棒,采样率为16,000赫兹;录音重复五遍。由于没有显著差异,本文将“_,读_三遍”中两个位置的目标元音音段数据一起统计,即每位发音人每个目标元音的有效样本数据为10个。这里我们讨论隆昌话的9个单元音
和4个降峰双元音
;在降峰双元音与升峰双元音的对比中,选取[ai au]与[ia ua]这两对语言中最常见的双元音。讨论集中在共振峰模式,略去时间结构。
隆昌单元音在声学元音图中的分布见下页图2(置信椭圆为两个标准差,参看胡方2014)。这是典型的三角形分布,高低分三个层级:高元音[i y u],低元音[a],以及[e o]。[e o]实际上位于正则元音的半高与半低之间。除了前高位置有圆唇与否的对立,其他前元音都不圆唇,后元音都圆唇。两个舌尖元音
在声学元音图中位于高、央的位置,但比高元音略低。还有一个儿化的央元音
。只看单元音,隆昌话的元音系统非常简单、整齐。不过隆昌还有4个降峰双元音
,见下页图3和图4(实线椭圆是单元音,虚线或点线椭圆是双元音的首尾成分,箭头则简化示意双元音共振峰模式的变化方向)。

图3、4的比较目的是想知道双元音如何实现其声学目标。图中可以看到,双元音[ai au]的首成分[a]与单元音[a]相比分别偏前和偏后,这应是受各自的尾成分的影响,显现出一定程度的逆协同发音,但其椭圆的大小与单元音[a]类似,而且重叠明显。这说明双元音[ai au]的发音是从一个类似于单元音[a]的声学位置开始的,其声学目标比较清楚。而双元音[ai au]的尾成分[i u]与单元音[i u]位置差距很大,椭圆几乎不重合,说明并未到达目标位置,而椭圆面积显著大,即数据分布的离散度增加、可变性增大。可见[ai au]的发音似乎并没有一个明确的尾成分声学目标,其尾成分的位置是由双元音的动态特性所决定的。与[ai au]类似,
的尾成分也没有一个明确的声学目标。另外,
的首成分
的可变性也非常大,虽然
中的
的椭圆与单元音
的椭圆还是重叠的,但离散度显著增加,尤其在女发音人的数据中,这个特点更加明显。
综上所述,隆昌话的降峰双元音
并不是由两个目标组成的,它们更像是一个动态的目标。[ai au]由一个接近于单元音[a]的声学位置开始,但不需要实现其尾目标[i]或[u],而是在不到目标的位置就结束了,是由于受到双元音自身的动态特性制约;
也类似,而且,从其变异性更大的首成分
的分布来看,其动态特性更加重要。因此,我们认为降峰双元音应该如单元音一样,是隆昌话元音音位对立的组成部分。
升峰双元音则全然不同。请看图5。

隆昌升峰双元音[ia ua]的首尾成分(实线或点线椭圆)与单元音[i u a]的椭圆(虚线)大部分重合,均值点的位置也非常接近;因此,声学材料支持将隆昌话的升峰双元音看做是由两个相对稳定的声学目标组成的,其发音过程中就是从一个稳定的目标位置过渡到另一个稳定的目标位置。也就是说,[ia ua]就是[i]与[a]、[u]与[a]的序列。
叁 语音的变异性
在现在通行的普通语言学的理论框架中,一般把语音看做是均质的,即一个音就是百分之一百的这个音。如前文所述,普通语言学更偏重于抽象层面的分析,无论是形式学派还是功能学派,基本还是只关心语言中抽象的那部分,即将语言视为人类的一种或内在的(innate)或交际驱动的抽象的能力(competence),将语言的具体产出视为一种执行(performance)。因此,“音类”“音位”都是从感知、心理的角度根据直观推理定义的,在语言学中强调其区别性。但事实上,语音是变异的(variant),一个音并不一定百分之一百是那个音。
语音学已经逐渐发展为实验科学,拥有完全不同的世界观/语言观,语音研究的核心任务当然还是人脑中抽象的语言/语音能力,但实验语音学在研究中直接面对大量具体的语音产出样本,主张从具体的采样中去研究抽象的语言/语音能力。也就是说,语音学关心的不只是语言的执行,更重要的是“怎么执行”,根据执行来建立音类的模型。与传统的、非实验的语言学相比较,实验语音学提供了基于言语产生(speech production)的视角去观察语言学音类问题:可以根据“具体”的产出去思考“抽象”的音类(当然还要受到感知以及语音产生与感知之间的关系的制约)。因此,在实验语音学的视角下,变异是语音的特质。比如上面我们根据每个元音40-50次采样,用置信椭圆来建立其分布的模型,这就是基于语音产生视角的音类概念,因为人不能两次发出同一个音而真的做到完全相同。
有些语音之间存在着范畴边界,有些不存在范畴边界,比如一般认为元音的感知是连续的,而大部分辅音的感知则是范畴的。无论有没有感知上的范畴边界,语音的类别化在不同的语言或方言中都是带有个性的(language-specific)。以连续感知的元音为例,从高元音[i]至低元音[a]之间,普通话在高低维度上只区分/i/与/a/,其他的对立是通过其他语音手段引入的,如通过圆唇引入/y/,通过后响双元音引入/ε/,通过前响双元音引入/ai/、/ei/;日语则区分/i/、/e/、/a/;隆昌方言则在区分/i/、/e/、/a/的基础上通过元音动态化手段引入/ai/、/ei/;北部吴语方言大多区分/i/、/e/、/ε/、/a/,并往往在高、半高位置进一步区分圆唇与否;欧洲的语言,如德语则在区分/i/、/e/、/ε/、/a/的基础上通过时长手段再进一步引入长短元音对立。
我们这里以范畴感知的辅音为例,讲一个跨感知边界的例子。世界语言中的塞音、塞擦音以清浊、送气与否可以分为四类:清不送气、清送气、浊不送气、浊送气,印度的一些语言保持这种四向对立(Ladefoged 2006:146-151),但大多数语言中,塞音、塞擦音通常只有两类或者三类。中古汉语有三类(高本汉1915-1926),这在典型的吴语中得到了保留(赵元任1928);大部分汉语方言中,古浊塞音、塞擦音按照一定的条件并入了清不送气、清送气,只有两类。那么,浊塞音、塞擦音消失了吗?在音系的层面,答案是肯定的。连在保留浊音的方言如吴语、老湘语中,浊音也似乎正在消失,因为除在音节间的位置以外,发音人在发这些所谓的浊音时,声带并不振动。我们知道,除了伴随的低声调之外,吴语方言的浊塞音的“浊感”可以主要归因于后接元音的气声化(曹剑芬1982,1983)。
那么,浊塞音、塞擦音哪里去了?例如官话方言,塞音、塞擦音只有清送气、清不送气两类。我们认为浊音并不是从说话人的脑中被删除了,而是被类别化入清不送气音类了。理由有二:其一,清不送气塞音、塞擦音在语流中不重读时容易实现为浊;其二,在学习外语时,浊塞音、塞擦音这个被屏蔽的语音范畴就会浮现出来。同样是将塞音、塞擦音类别化为两类,英语却是一清一浊。汉语母语者学习英语,常会拿清不送气音去代替浊音。此外,英语的清塞音一般送气,而在s后实现为不送气。在英语母语者看来,清送气、不送气是依语音条件自然出现的同一个音类,但汉语母语者把它们视为泾渭分明的两类。于是,“s之后浊化”之说在国内英语教育界很有市场,教师们和学生们就是这么教和学英语,而且效果也还不错(梁波2017)。教学法的这种错位,从另一角度折射出跨范畴语音在不同语言里类别化过程中的语言个性。
当然,还有一些汉语方言中,虽然塞音、塞擦音也被类别化为清不送气、清送气二类,但是作为语音范畴的浊塞音、塞擦音在自然语音产生中还会继续出现,我们可以通过实验证据来讨论塞音、塞擦音在语言或方言中类别化的问题。
下面以赣西北方言为例(李如龙、张双庆1992;刘纶鑫1999)。赣语的塞音、塞擦音今两分,古浊塞音、塞擦音作为音类已消失,演变成送气清音。我们对南昌、新建、安义、湖口、星子、都昌、修水、德安、武宁、永修等十个县市共计30位发音人采样调查,发现在这些方言中,浊塞音、塞擦音作为语音范畴并没有消失,只是与送气清音合并了;这些方言的说话人发这类音的时候,并不总在发送气清音,也不是总在发浊音,而是一会儿读清送气,一会儿读浊音。就是说他们并不区分这两个语音范畴,在他们的发音目标中,这两个范畴是同一类。

我们这里用永修方言这个典型的例子来说这个问题。如图6所示,把目标词“鼻”放在载体句“X,这个X字”中进行音频数据采样,永修的一位男性发音人把单念的“鼻”实现为清送气,却把载体句中的“鼻”实现为浊不送气塞音。这说明永修并不区分
与[b],它们都属于同一个音类
,只是在单念的时候容易实现为
,在语流中容易实现为[b]。
为了更全面地了解
的变异,我们进一步分析了永修方言双唇塞音声母拼/i/韵母的情况。我们统计了3位永修发音人的声学样本。/pi/共4个例字,每个例字重复3遍,除去错漏样本,共得33个有效样本。在单念时,/pi/的声母VOT均值是16毫秒(标准差8毫秒),韵母时长均值208毫秒(标准差65毫秒)。对于清不送气双唇塞音来说,这个VOT是偏大的(我们测量其他方言多在10毫秒左右)。当处于载体句中时,有31个样本不发生塞音浊化现象,闭塞段时长均值为97毫秒(标准差13毫秒),VOT为11毫秒(标准差6毫秒),韵母时长为185毫秒(标准差43毫秒)。这时[p]的VOT值就与其他方言接近了。另外,不管处于什么声调、舒声音节还是促声音节,从较小的标准差值可以看到,闭塞段的时长相当稳定。较长的闭塞段时间(将近100毫秒)可能是保持音节间清不送气塞音的一个特征条件;在发生浊化的2个特例中,音节间的闭塞段全部浊化,时长只有50毫秒左右,与下面要讨论的送气塞音类似。
来自古次清声母和全浊声母的例字也各有4个,并没有发现两者有任何差别,因此我们将它们放在一起讨论;倒是发现三个发音人中,有一个跟另外两个不同,需要分开来讨论。
那两个发音人有40个有效样本。单念时均实现为清不送气塞音
,
的VOT均值是42毫秒(标准差16毫秒),韵母时长均值210毫秒(标准差65毫秒)。在载体句中均实现为浊塞音[bi],[b]的VOT均值是-57毫秒(标准差12毫秒),韵母时长212毫秒(标准差42毫秒)。就是说,单念时
实现为
,用较大的VOT值与不送气的[p]相区别;而在音节间时,实现为[b],用VOT负值与不送气清塞音[p]相区别。另外一点与清不送气塞音不同的是,当处于音节间时,闭塞段时长较小,均值57毫秒。
另一个发音人的在单念时的VOT明显大于前面两个发音人,24个样本的均值为68毫秒(标准差26毫秒),显示更强的送气特征;韵母时长均值为253毫秒(标准差67毫秒)。这种强送气特征在音节间也得到体现:只有在3个样本中,
实现为[b];而在另外21个样本中,
还是实现为
,其中闭塞段时长均值为63毫秒(标准差14毫秒),VOT均值为64毫秒(标准差21毫秒),韵母时长均值为219毫秒(标准差43毫秒)。
从以上讨论可见,除说话人内部的差异(intra-speaker variations)以外,说话人之间的差异(inter-speaker variations)也是很重要的一个变异来源。事实上,方言间的变异情况会更加复杂。就赣西北方言为例,我们相信古次清声母与全浊声母合流为一套音位是这片方言共同创新(shared innovation)的起点,但合流之后的这个音类经过长时间的演变,现在不同方言、不同说话人中是如何实现的,会呈现出复杂的多样性,尤其是当与声调的发展交织在一起时,更是增添了复杂性。对此本文无法赘述,这里要强调的是:语音是变异的,不仅仅是连续感知的语音范畴具有变异性,各个语言或者方言对于跨范畴的语音的类别化也是带有个体性的。
肆 结语:以实验证据为基础的语音研究仍是语言学研究
实验语音学测量所提供的语音细节为我们观察语音区别特性的具体内容提供了可能性,但是同时,语音也具备了具体、变异的特性,不再像以往概念化似的那般抽象。一个语音目标,无论其是一个语音单位还是一个语音特征,它可能并不是绝对抽象、均质的,而是相对具体、变异的,都可以从产生与感知的角度对它们进行研究。一方面,我们强调,无论何种测量手段,我们最终关心的是语音的语言学意义;而另一方面,我们也知道,即使是描写汉语方言中的语音现象,我们也需要全新的方法论与研究范式。因此,虽然我们在谈论实验语音学测量的时候仍然是在谈论语言学问题,但却已经是一种全新的语言学了。
新在什么地方呢?最核心的就是:这是一种以实验证据为基础的研究(an evidence-based approach),而不是纯粹基于归纳推理的范式(a generalization-based approach)。
语音学的学科发展可以1886年“国际语音学会”(International Phonetic Association)的成立为起始标志,但是经过了130多年,语音科学并没有发展成一个界限清楚的学科,相反,随着近几十年科技的迅猛发展,语音研究形成了一个众多学科交叉的局面,因此,国际语音学会常设理事会举办的四年一届的“语音科学大会”(International Congress of Phonetic Sciences)将“语音科学”定义为复数形式。语音研究是语言学、语言教学、言语病理学、言语信息工程、人工智能等诸多科学、医学、工程学、人文科学领域共同关心的问题。仅就语音的本体研究而言,其核心科学问题是解释人类所拥有的语音能力,按照现在的理解,就是人体所具有的语音产生与语音感知这两项生物功能,在方法上可以有偏生理、偏心理、偏工程模拟的种种研究旨趣。本文提倡的是偏语言学本体意义的研究旨趣,也就是关心人类的语音能力在具体的语言或者方言中是怎么实现的,而不是将语音语料视为探索人脑语音能力的刺激项;本文以汉语方言为主要研究对象,就是偏重描写语音能力在具体方言中的实现,即种种汉语语音现象,其实是继承描写主义的传统,实践一种新的实验描写主义。
①在语言学传统上,语音之间的区别特性是从心理的角度根据直观推理定义的,即由区别特征(distinctive features)构成,但近些年来心理学领域的研究发现人类在类别感知上可能具有范例性特点(exemplar model),语言的音类也是如此(参见Johnson 2007),由于本文不具体讨论这个问题,因此不细究。
②我们不使用更常见的术语如前响双元音、后响双元音,是因为“前响、后响”等在字面上均涉及听感判断,不如“降峰、升峰”等根据纯声学参数定义的术语更为中性。
③有的北京人说英语时用[ε]代替/ai/,如arrive说成
。不用自己语音系统里面有的/ai/来对应英语的/ai/,而是用了一个在北京话/普通话中并不符合CV音节拼合关系的单元音[ε]来代替,这便说明在北京人的大脑/语法中,北京话的/ai/跟英语的/ai/是完全不同的东西。
原文参考文献:
[1]胡方 2008 论元音产生中的舌运动机制——以宁波方言为例,《中国语音学报》第1辑,(北京)商务印书馆.
[2]胡方 2013 降峰双元音是一个动态目标而升峰双元音是两个目标:宁波方言双元音的声学与发音运动学特性,《语言研究集刊》第十辑,上海辞书出版社.
[3]胡方 2014 《宁波话元音的语音学研究》,(北京)中国社会科学出版社.
[4]李如龙、张双庆[主编] 1992 《客赣方言调查报告》,厦门大学出版社.
[5]梁波 2017 跨语言音姿对比的二语语音教学原则研究,北京大学外国语学院博士论文.
[6]刘丹青 1998 《祁门方音》,见平田昌司[主编]( 1998 )《徽州方言研究》,《中国语学研究·开篇》单刊No.9,(东京)好文出版.
[7]刘纶鑫[主编] 1999 《客赣方言比较研究》,(北京)中国社会科学出版社.
[8]平田昌司[主编] 1998 《徽州方言研究》,《中国语学研究·开篇》单刊No.9,(东京)好文出版.
[9]邱玥、胡方 2013 隆昌话的元音,《语言研究集刊》第十辑,38-51页,上海辞书出版社.
[10]叶晓锋 2011 汉语方言语音的类型学研究,复旦大学博士论文.
[11]张倩 2013 信丰(铁石口)客家方言的元音格局,《语言研究集刊》第十辑,上海辞书出版社.
[12]Abercrombie,D.1967 Elements of General Phonetics.Edinburgh:Edinburgh University Press.
[13]Abramson,A.S.1962 The vowels and tones of Standard Thai:Acoustic measurements and experiments.International Journal of American Linguistics,28(2),Part II;Also Publication Twenty of the Indiana University Research Center in Anthropology,Folklore,and Linguistics,Bloomington.
[14]Abramson,A.S.1972 Tonal experiments with whispered Thai.In Valdamn,A.(ed.),Papers on Linguistics and Phonetics to the Memory of Pierre Delattre,pp.31-44.The Hague:Mouton.
[15]Abramson,A.S.1975 The tones of central Thai:some perceptual experiments.In Harris,J.G.& Chamberlain,J.(eds.),Studies in Tai Linguistics,pp.1-16.Bangkok:Central Institute of English Language.
[16]Abramson,A.S.1976 Thai tones as a reference system.In Gething,T.W.,Harris,J.G.& Kullavanijaya,P.(eds.),Tai Linguistics in Honor of Fang-Kuei Li,pp.1-12.Bankok:Chulalongkorn University Press.
[17]Abramson,A.S.1978 Static and dynamic acoustic cues in distinctive tones.Language and Speech,21(4),319-325.
[18]Atkinson,Q D.2011 Phonemic diversity supports a serial founder effect model of language expansion from Africa.Science 332:346.
[19]Bao,Z.1999 The Structure of Tone.Oxford:Oxford University Press.
[20]Boersma,P.& D.Weenink 2014 Praat:doing phonetics by computer[Computer program].Version 5.3.68,retrieved 20 March 2014 from http://www.praat.org/.
[21]Bouchard,K.E.,N.Mesgarani,K.Johnson & E.F.Chang 2013 Functional organization of human sensorimotor cortex for speech articulation.Nature 495(7441),327-332.
[22]Catford,I.1977 Fundamental Problems in Phonetics.Edinburgh:Edinburgh University Press.
[23]Chao,Y.-R.1928 Studies in the Modern Wu Dialects.Peking:Tsinghua University Research Institute Monogragh,4.
[24]Chao,Y.-R.1930 A system of tone-letters,La Maitre Phonetique 45,24-47.Reprinted in Fangyan,2,81-82,1980.
[25]Chomsky,N.& M.Halle 1968 The Sound Pattern of English.New York:Harper and Row.
[26]Fuchs,S.,D.Pape,C.Petrone & P.Perrier(eds.)2015 Individual Differences in Speech Production and Perception.Peterlang.
[27]Galantucci,B.,C.A.Fowler & M.T.Turvey 2006 The motor theory of speech perception reviewed.Psychonomic Bulletin &Review 13(3):361-377.
[28]Gandour,J.T.1978 The perception of tone.In Fromkin,V.A.(ed.),Tone:A Linguistic Survey:41-76.New York:Academic Press.
[29]Holbrook,A.& G.Fairbanks 1962 Diphthong formants and their movements.Journal of Speech and Hearing Research,5:38-58.
[30]Hombert,J.-M.1976a Consonant types,vowel height,and tone in Yoruba.UCLA Working Papers in Phonetics,33:40-54.
[31]Hombert,J.-M.1976b Perception of tones of bisyllabic nouns in Yoruba.Studies in African Linguistics,Supplement 6:109-121.
[32]Hombert,J.-M.1978 Consonant types,vowel quality,and tone.In Fromkin,V.A.(ed.),Tone:A Linguistic Survey:77-111.New York:Academic Press.
[33]Jakobson,R.& L.Waugh 1979 The Sound Shape of Language.Harvester Press.
[34]Johnson,K.2007 Decisions and mechanisms in exemplar-based phonology.In Solé,M.J.,P.Beddor & M.Ohala(eds),Experimental Approaches to Phonology.In Honor of John Ohala:25-40.Oxford University Press.
[35]Jones,D.1922 Outline of English Phonetics(
Edition).New York:E.P.Dutton.
[36]Ladefoged,P.2006 A Course in Phonetics(
ed.).Boston,M.A.:Thomson Wadsworth.
[37]Lehiste,I.& G.E.Peterson 1961 Transitions,glides,and diphthongs.Journal of the Acoustical Society of America,33:268-277.
[38]Liberman,A.M.& D.H.Whalen 2000 On the relation of speech to language.Trends in Cognitive Sciences 4(5):187-196.
[39]Liberman,A.M.& I.G.Mattingly 1985 The motor theory of speech perception revised.Cognition 21(1):1-36.
[40]Liberman,A.M.& I.G.Mattingly 1989 A specialization for speech perception.Science 243(4890):489-494.
[41]Liberman,A.M.,F.S.Cooper,D.P.Shankweiler & M.Studdert-Kennedy 1967 Perception of the speech code.Psychological Review 74(6):431-461.
[42]Malmberg,B.1963 Structural Linguistics and Human Communication.Berlin:Springer-Verlag.
[43]Mesgarani,Nima,Connie Cheung,Keith Johnson & Edward F.Chang 2014 Phonetic feature encoding in human superior temporal gyrus.Science 28,343(6174):1006-1010.
[44]Ohala,J.J.1981 The listener as a source of sound change.In C.S.Masek,R.A.Hendrick & M.F.Miller(eds.),Papers from the Parasession on Language and Behavior:178-203.Chicago:Chicago Linguistic Society.
[45]Ohala,J.J.1991 The integration of phonetics and phonology.Proceedings of the XⅡth International Congress of Phonetic Sciences,Vol.1:1-16.
[46]Ohala,J.J.1993 Sound change as nature's speech perception experiment.Speech Communication,13,155-161.[Also reprinted in:G.Fant,K.Hirose & S.Kiritani(eds.),Analysis,Perception and Processing of Spoken Language.Festschrift for Hiroya Fujisaki:155-161.Amsterdam:Elsevier,1996.]
[47]Ohala,J.J.1995 Experimental phonology.In John A.Goldsmith(ed.),A Handbook of Phonological Theory:713-722.Oxford:Blackwell.
[48]Perkell,J.S.1996 Properties of the tongue help to define vowel categories:hypotheses based on physiologically-oriented modeling.Journal of Phonetics,24:3-22.
[49]Pike,K.L.1947 On the phonemic status of English diphthongs.Language,23:151-159.
[50]Shen,X-N.S.& M.Lin 1991 A Perceptual Study of Mandarin Tone 2 and 3.Language and Speech,34(2):145-156.
[51]Stevens,K.N.1972 The quantal nature of speech:Evidence from articulatory-acoustic data.In P.B.Denes,& E.E.David Jr.(Eds.),Human Communication:A Unified View,pp.51-66.New York:McGraw Hill.
[52]Stevens,K.N.1989 On the quantal nature of speech.Journal of Phonetics,17,3-46.
[53]Sweet,H.1877 A Handbook of Phonetics Including a Popular Exposition of the Principles of Spelling Reform Oxford:Clarendon Press.
[54]Wang,C.,Q Ding,H.Tao & H.Li 2012 Comment on "Phonemic Diversity Supports a Serial Founder Effect Model of Language Expansion from Africa",Science 335:657.
[55]Yip,M.1980 The Tonal Phonology of Chinese.Ph.D.dissertation.Massachusetts Institute of Technology.
[56]Zee,E.& W.Lee 2007 Vowel Typology in Chinese.Proceedings of the 16th International Congress of Phonetic Sciences:6-10,Saarbrücken,Germany.






