3/10/2010

我的语言谁做主

最近这几年每到祖国召开两会的时候,身为P民的我都很开心,因为在这段日子里,每天都可以看到不断更新的笑话集锦,为枯燥的工作添加些许乐趣,这个坏习惯还一直被带到美国来了。其实出笑话一点儿都不奇怪,你只要扫一眼代表名单,不是数钱数到手抽筋的“群众”,就是坐办公室闲到蛋疼的“人民”,你能指望这伙“代表”提出什么急人民之所急、想人民之所想的建议来呢?

最近的一个能让我记得的笑话是一个代表提出应该全面禁止使用新近通过网络流行的文字,比如“囧”,理由大概是净化汉语吧。这虽然是一件小事,却是一个极具革命先讲性的建议,比此前遮遮掩掩的网络文字审查过滤又向前迈进一大步——与其费力审查,不如直接斩草除根,宣布其非法性。也不知道这位代表是不是受到了《一九八四》中“新话(newspeak)”的启发。

碰巧今天又在纽约时报上看到一篇关于Google利用搜索引擎带来的数据优势改进翻译功能的报道,文章提到了其基本工作原理,即自上世纪九十年代在语言学习理论研究中开始逐渐兴起的统计模型。简单来说,我们说话时对词汇和句式的选择取决于日常生活中听到的语言使用频率的记忆,比如说你身边的人都把一种半球形上面有褶里面有馅的面食称为“馒头”,你自己想吃这个菜的时候就会到饭店点一笼馒头;如果我周围的人都把这种东西叫“包子”,我下次在食堂看到它的时候自然就会跟师傅讲,“请给我来两个包子”。这里面隐含了一个重要条件,即学习语言的语境要与使用语言的语境一致,否则就要出笑话。

我上大学的时候就有同学出过这样一个笑话。听说是一个新入学的南方女生有一天中午不想去食堂(那会儿在食堂排队抢座确实不算是一件轻松的事情),就请室友代劳买六个“馒头”。碰巧这位室友正好是个实在的北方人,二话没说就给买回来六个“馒头”——六个实心发面开花大馒头(回想一下《活着》里面那个吃了七个馒头差点撑死的王教授吧)!

尽管偶尔会出错,这仍然是人类学习语言的最主要方式。你说什么?上学?没错,我们确实有语文课,但是回想一下几百年以前,那时候也早就有了“四书五经”和《百家姓》、《千字文》,不过读书仍然是一件奢侈的事情,文盲还是绝大多数,但村氓农妇照样能够与大诗人们进行亲切交流,白居易不是还读诗稿给老妪听吗?甭说这个,现在这个星球上还有很多语言没有对应的文字呢,巴布亚新几内亚的食人族孩子们断然是没有语文课上的,但这也丝毫不妨碍人家的日常语言交流。话说回来,从语文课上学到的语法修辞大概也只有在写文章做报告的时候用得上,平日里使用频率最高的那些语句基本上都不是课本上学来的,而且大半是不大合语法的,很多词大概连词典都不收录。话说回来,有谁讲话时还要翻字典呢?大概只有传教士和红卫兵吧。

那么,究竟什么是语言呢?Wikipedia上给出的定义是:用于编码和解码信息的一类特殊系统。所以,关键在于传递的信息,语言本身只是作为载体的信号,形式当然可以是多样的,只要发出信息的人和接受信息的人使用的是同样的密码本就好了。我们学习语言的过程就是抄写这份密码本的过程,这个过程中难免出现抄写错误,更难免东拼西凑和自主创新。所以语言也就在传递和使用中不断的变异和重组,这个过程按照达尔文先生的说法就叫“进化”。有心人为语言做了基因测序,搞出个基因图谱叫“字典”,不过这玩意儿只能用作参考,因为语言基因的变异太快,等位基因多样性太高,按图索骥纯粹是自寻烦恼。按照维特根斯坦先生的观点,根本就不可能为一个概念提供一个明确的定义,因为这个概念的具体意义分布于每个人脑子里,要做个统计才能下结论,比如说60%的人认为馒头是圆形的,30%的人认为方形也可以,还有10%的人根本不在乎性状。记得前两年国内出台过一个很牛的政策,规定馒头的形状必须满足某个规格,否则就剥夺其馒头身份。可是几年过去了,似乎各种形状的馒头依旧我行我素。当然了,既然咱的政策连三聚氰胺都管不住,就更管不住老百姓的嘴了。

最后提一下,我个人觉得按统计模型搞出来的Google翻译服务还是挺不错的,起码翻译出来的文章像是正常人类语言了,仅就这一点就至少比其他同类的翻译软件强出几条大街,当然更不用提当年的金山快译之类让人啼笑皆非的大胆产品了。除了语法之外,词汇量的更新也很与时俱进,比如我试着输入“二奶”,就返回一个“mistress”;更神的是,我敲了一个“总书记”(对天发誓,只是出于好奇),居然返回一个“Zemin”,怪不得谷歌中国要被穿小鞋了。