熟悉的麻木——汉语的分词问题
首先来看看下面的两句话:
小李告诉小王,这条信息已经加密了。
Bob told Alice that the message has been encrypted.
这两句话分别是由汉语和英语写成的,你可以很容易看出它们的相似之处,甚至它们之间可以做简单的词对词翻译(汉语和英语都是SVO结构的)。但是不同之处在那里,你可能会说名字不一样,或者汉语没有动词时态的变化。你说的对,但是你可能没有注意到汉语和英语以及其他拼音文字的一个不同之处。如果我把上面两句话写成下面的形式,你可能就会发现:
小李告诉小王,这条信息已经加密了。
BobtoldAlicethatthemessagehasbeenencrypted
一个熟悉英语的人,如果花一点时间,仍然可以读出第二句的意思。但是如果一整本书都用着这方式写成,那么它对我们所有人都是一场灾难。现在你应该发觉了,这个不同之处就是:汉语似乎没有空格的概念。
我把它称作熟悉的麻木。当我们书写汉语的时候,我们不会考虑空格。为什么?回想一下,似乎从我们上小学的时候,老师就教给我们一个接一个地连续书写汉字从而造句。当我们有能力阅读印刷品之后,我们读到的也是连续书写的汉字。简而言之,这是一种习惯。把所有空格都扔掉的英文是一场灾难,但是没有空格概念的汉语的文字却很少对我们的日常生活产生什么负面的影响。你可能会说,这是因为每个汉字都是正方形的,我们很容易把一个字和另一个字分开。除非你遇到了猫扑式的“走召弓虽”或者“女口果人尔能看日月白这段言舌,那言兑日月人尔白勺目艮目青有严重白勺散光”这样的句子,幸运的是它们并不常见。(正方形并不总是有效,比如“同学会同意这种做法”,主语到底是“同学”还是“同学会”呢?有时候,我们在生活中会被这种歧异所困扰。)
从汉语言的演化历史中,可以理解为什么汉语没有空格的概念。在古代汉语中,人们基本只用单个字来代表一种意思。古代汉语单字词的支配地位,可以从古文中轻易地看出。随便从《左传》中摘录一段:“夫战,勇气也。一鼓作气,再而衰,三而竭。彼竭我盈,故克之”,这里面几乎每一个字都是词(一鼓作气后来才成为成语)。这时候,词就是字,而字是方形的,很容易切分,也就不需要空格。
随着社会的发展,这种用单个汉字表意的做法逐渐遇到了困难。新概念新事物层出不穷,就需要新的字来记录。然而字符集不能无限增长,原因也很简单:没有多少人能记住那么多字。东汉时代的《说文解字》收录了将近1万个小篆汉字,20世纪90年代,人们对汉字加以搜集整理,出版的《中华字海》收录了8.5万多汉字。对于我们现代人,这部《字海》里的90%以上的汉字都死了。一个必然的选择是,用汉字组成双字词或多字词,在不增加汉字的情况下,扩充词汇数量。时至今日,汉语词汇中的双字词数量已经超过了单字词的数量。
回到本文最初的例子上来。我们能够理解“小李告诉小王,这条信息已经加密了”这句话,在根本上并不是因为汉字是正方形的,而是因为我们的大脑“人工”“智能”地对这句话进行了处理,把它切分成了“小李 告诉 小王,这条 信息 已经 加密 了”的形式。儿童是语言学习的大师,我们从小就学会了自动切分句子从而正确地读出句子的含义。对于外国汉语初学者,这确实会令他们产生一定的困扰,因为这种学习者大多已经不是儿童了。
无论如何,我们还能应付这种情况。但是当我们进入信息化时代之后,我们这些使用汉语的人就遇到了一个很大的麻烦:计算机的如何对句子中的汉语词进行切分?而这种切分对于计算机有效处理信息是至关重要的。Google的科学家吴军介绍了用数学对汉语信息进行处理的一些方法(1 2 3),而对自然语言进行处理,就需要建立在词的基础上。
你可能听说过Google和它的竞争对手Baidu在中文检索能力上的一些争论,其中一个争论就是关于中文分词能力的问题。分词,就是把一短汉语以恰当的方式切分成词。我本人不太清楚两者谁的分词能力更好,但是这个问题肯定会影响到检索的效率。
20世纪80年代,北航的梁南元在《书面汉语自动分词系统》这篇论文中提出了一个基本的汉语书面语分词方法,也就是用查字典的方法切分句子。他在这篇论文中写道:“1982年,北京航空学院计算机科学与工程系曾经作过一次试验,三十余个具有高中毕业文化水平的青年对五百字的一个语言材料人工分词,同一率只有50%左右。经过短期培训后,同一率也只能达到80%左右。”
吴军在Google黑板报上的文章讨论的是如何用计算机自动分词(也正是这篇文章激发了我的这篇)。但是分词不仅仅涉及到Google。在关于汉语拉丁化的讨论中,分词也是一个重要的问题。
这个问题最初被称为“词汇连写”,后来又称为“词儿连写”,现在通常称作“分词连写”。分词连写对应的就是不分词连写。
很显然,“小李告诉小王,这条信息已经加密了”这句话对于把汉语作为母语的人是很容易理解的。写成“小李 告诉 小王,这条 信息 已经 加密 了”似乎有点多余。但是如果把这句话写成拉丁字母的形式,我们可以写成:
xiao li gao su xiao wang, zhe tiao xin xi yi jing jia mi le.
xiaoligaosuxiaowang, zhetiaoxinxiyijingjiamile.
Xiao Li gaosu Xiao Wang, zhe tiao xinxi yijing jiamile.
(以上都省略了声调符号)
第二种形式几乎也是一场灾难(我找一位朋友试着读这句话,他读出来了,但是速度很慢。你可以想象整本书都这样写的后果);第一种也遇到了类似的困难。
第三种方法就是我们说的“分词连写”,即用空格分开一句(用拼音记录的)话的各个词。
分词连写是汉语拉丁化首先要解决的问题之一。有趣的是,尽管20世纪80年代以来,汉语拉丁化的热度降低,汉语拼音的分词连写却得到了发展。1996年,中国公布了《汉语拼音正词法基本规则》的国家标准(GB/T16159-1996)。这个标准说:
本标准规定了用《汉语拼音方案》拼写现代汉语的规则。内容包括分词连写法、成语拼写法、外来词拼写法、人名地名拼写法、标调法、移行规则等。为了适应特殊的需要,同时提出一些可供技术处理的变通方式。
本标准适用于文教、出版、信息处理及其他部门,作为用《汉语拼音方案》拼写现代汉语的统一规范。
注意,它的名称使用了“正词法”,而不是“正字法”,这表明它强调的是分词问题。进行分词连写处理之后的汉语拼音句子,为汉语的拉丁化提供了一个基础。这部国标或许可以看作汉语拉丁化的最新发展。
即便你不热衷于汉语拉丁化,这部《汉语拼音正词法基本规则》仍然为你提供了一个切分汉语词的统一标准。记住,分词对于处理汉语信息,是很重要的。
顺便说一下,有些港澳人士常常用汉字简化过程中合并了某些字作为攻击汉字简化的弹药,这种以偏概全的攻击恰恰忽视了现代汉语的一大特征,那就是汉语的词汇中占多数的是双字词。“出发”和“头发”两词中的fa在繁体字符集中是两个不同的字,但是在实际使用中,这两个字的合并并不会造成说话者和听话者的困扰,因为汉语是以词的方式运作的。
剛Key 了一堆都不見了. 直接說重點.
你的論點自動忽略 “雙字詞” 是演進而來的. 如 “頭” “髮” 於單字詞各有其意義. 而衍生的雙字詞 “頭髮” 可直接讓我們了解其意義.(如果你想知道的話, 對我來說就是頭髮上的毛) 而不需進一步學習.
你的雙字詞觀點正如在創造新字. 而且是無logic 可依歸 (Random 產生) 只要同音即可 那今天 “頭髮” 可變成各種同音字之組合... 除非文字消失變成拼音. 不然只能透過規定來規範.. 那又是另一個話題了.
因此下面的結論不是大有問題嗎?
“。「出發」和「頭髮」兩詞中的fa在繁體字符集中是兩個不同的字,但是在實際使用中,這兩個字的合併並不會造成說話者和聽話者的困擾,因為漢語是以詞的方式運作的。”
Comment by Shake — July 13, 2006 @ 7:21 am