语言学一个小小的星号*(不合法),背后水很深! 语言学午餐

 

都说句法学家是“追星星的人”,他们追的是什么“星”?...



翻开任何一本语言学(尤其句法学)书籍,你都会看到的一个符号,是下面这个句子左上角的星号:

(1)*那只猫的在追老鼠饼干偷吃了。

把(1)拿给任何一个以汉语为母语的人看,他都会觉得:

—— 我不知道这句话是什么意思;

—— 这好像不是汉语的正常句子吧?我不会这么说,也没有人这么对我说过;

—— 这句子很不好,是不可接受的。

句法学家把(1)这样的句子认为是“不合法”,并用“*”标记。请注意,这个判断是基于母语使用者对(1)的反应和直觉作出的。

然而,究竟什么是“合法/不合法”?按照上面说的,是否就意味着母语使用者觉得“好,接受程度高”的句子就是“合法”,反之觉得“差,不自然,接受程度低”的句子就是“不合法”?

不!由乔姆斯基开创的对语言学领域产生革命性影响的生成语法(Generative Grammar)理论,其核心就在于区分这两个概念:

代表“语言能力”(competence)的“合法性”(grammaticality)



代表“语言行为”(performance)的“可接受性”(acceptability)

这上面有四个关键词,可以分成两组来讲:

首先,为什么要区分“语言能力”和“语言行为”?“语言能力”是从实际语言行为中抽象出来的一种知识,去除了那些与语言本身没有直接关系的因素。我们在说话时候由于分心、口误、记忆力等原因,实际的语言表现是纷乱复杂的。生成语法理论认为这种具体的表现不是语言学的研究对象,语言学要研究的是一个“理想的语言使用者”(ideal speaker)关于语言的直觉(instinct)(详见乔姆斯基1965年著作《句法理论问题》)。

其次,“合法性”和“可接受性”呢?在做语感调查时,我们可以直接观察、测量到的是“可接受性”,即大家觉得这个句子好不好、是否自然。这是一个综合性的判断,而代表语言能力的“合法性”只是决定某个句子“可接受性”的因素之一。比如下面的句子(2),想象一个7分的评分系统,一般人可能会给它打个5-6分。

(2)那只主人在打的狗喜欢的猫在追的老鼠偷吃了饼干。
但是这句话无疑是“合法”的,导致它可接受性降低的原因只是它嵌套了太多个定语从句,而人在理解时受记忆力等原因的影响一下子没有“反应”过来。如果我们利用停顿把句子的各个部分划分出来,这句话完全是母语使用者可以理解的、正常的一个汉语句子:

(2)[那只[[[[[主人在打的]狗喜欢的]猫]在追的]老鼠]]偷吃了饼干。

又如句子(3),我们觉得它有点奇怪是因为句子表达的意思不符合我们的常识,“绿色思想”怎么又是“无色的”?“思想”怎么“睡觉”?“疯狂地睡觉”又是什么情况?

(3)无色的绿色思想在疯狂地睡觉。

但是我们有强烈的直觉句子(3)在语法结构上并没有问题。跟(1)的奇怪比较起来,(2)(3)的奇怪不是同一种,这种直觉就是用“合法性”来区分,虽然表现到“可接受性”时,这三句话都或多或少有一点“不好”、“不自然”。



这些区分,看似无关痛痒,实则有很深的理论内涵。“语言能力”、“合法性”这两个东西都是看不见、摸不着的抽象概念,有人会说,既然能直接观测到的数据只是“语言行为”、“可接受性”,如果我们能建立一个可以预测这些数据的模型,那为什么还需要假设中间这一层抽象的知识结构?

现在很火的自然语言处理、机器翻译大抵抱有这样的指导思想。而生成语法理论,则坚持认为,这一层抽象的知识结构(即语言能力和代表语言能力的合法性),才是语言学学科研究的对象和重心。



再具体一点说,这两种方法论在对人类语言的理解上是有本质性的不同的:假如人类语言是一台生成“句子”这种产品的机器,前者认为这台机器会产出从不好到好梯度分布(gradient)的句子,这些产品是基于概率的分布(好的句子高频,坏的句子极度低频);后者则认为这台机器本质上是二分的(binary),只产出“合法”的句子,至于人类呈梯度分布的语感,是受与语言本质无关的其他因素导致的概率性分布。



随着近些年人工智能、自然语言处理等领域的飞速发展,前一种观点(我们姑且统称为“概率派”probabilistic view)在应用方面取得了巨大的成功,以至于业界有“每开除一名语言学家,我的语音识别系统错误率就降低一个百分点”这样的说法。

但这否意味着坚守生成语法的(这里简称为“二分派”categorical view)理论语言学家就要“失业”?

答案显然是否定的。如果仔细看,我们会发现二分派从来没有否认过“语言行为”或“可接受性”是概率性、梯级分布这个事实;而概率派无论如何提高预测语言行为的模型的准确率,他们的结论也止步于“既然语言行为可以用概率分布模型预测,那么语言的本质可以是概率性的”。

拿小编最近看到的一篇文章,2016年Lau等人发表在Cognitive Science的“Grammaticality, acceptability, and probability: a probabilistic view of linguistic knowledge”来说,他们从不同来源(各大语料库,语言学课本,并用谷歌翻译来获得一些不那么自然的句子)组建了一些句子库,由人类对这些句子作出语感判断(根据自然程度打分),然后用当下非常流行的N-gram, Bayesian HMM, RNNLM等各个模型预测人类的语感判断。结果发现,不少模型可以达到相当水平的准确率。

然而,最后他们的结论并不“强硬”:

We consider the relevance of these results to the debate on the nature of grammatical competence, and we argue that they support the view that linguistic knowledgecan be intrinsically probabilistic.

(我们认为这些结果与人类语言能力本质之争有直接的关系,且它们支持了“人类语言知识本质上可以是概率性的”这一观点。)



注意这个“can”,“语言知识本质上可以/可能是概率性的”。正如刚才所说,这两派观点原则上并不能构成“争锋相对”,概率派的目的是预测语言行为的分布,但没人真正敢断言,这种依靠统计、大量语料所建的模型真正刻画了人类的“语言能力”。

如果仔细看文章中的数据与分析,你会发现很多“隐患”:比如,各个模型的准确率在不同类型的句子库非常不同,如果句子普遍比较短,算法偏简单的N-gram模型准确率就上去了;但我们直觉上都知道,靠前(n-1)个词推断第n个词的概率(N-gram简单来讲就是这个意思)显然不会是真正的语言能力,因为我们掌握的是句子的结构,而非线性顺序。这种准确率的浮动意味着随意性和不稳定性,也就是说,我们通过数据分析发现了某几个模型在某几个句子库上的预测率非常高,但我们并不(完全)知道为什么这几个模型在这些时候就成功/失败了。

(Lau et al. 2016文章中部分数据)
反观理论语言学的研究,他们的结论是基于可推广的规则,虽然会不断受到新现象的挑战而需要进行调整、修正,但每一步都是扎实而有迹可循,自成一个完整的、动态的形式系统。

最后,要强调的是,小编个人认为对于理解人类语言本质这项事业来说,二分派和概率派并无轻重、高下之分:一方面,两者的研究重心和(短期)目标本来就是不同的;另一方面,随着模型的复杂性(complexity)提高,模型处理、分析语料的方式某种程度上也在像人类(语言学家)靠拢,小编相信两个阵营中真正的远见(insights)是趋同的,因为,great minds think alike!

参考文献

Adger, D. (2003). Core syntax: A minimalist approach (Vol. 33). Oxford: Oxford University Press.

Chomsky, N. (2014). Aspects of theTheory of Syntax (Vol. 11). MIT press.

Lau, J. H., Clark, A., & Lappin, S.(2016). Grammaticality, acceptability, and probability: a probabilistic view oflinguistic knowledge. Cognitive Science.




    关注 语言学午餐LingLunch


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册