蒙古文文字处理中的控制符问题
蒙古文的信息化,是将蒙古文字通过现代信息设备输入输出,并且能够相互交换交流。 因为蒙古文是拼音文字,所以采用了拼音文字的编码方法,对字母按照读音进行编码—— 也就是在 Unicode 中的名义字符,又因为蒙古文每个字符很根据前后位置和字母的关系出现 很多不同的形式变体,所以采用了类似阿拉伯文的编码方式——在名义字符的基础上,自定义 了不同的变体——显现字符。大多数情况下,正常的输入,字符会根据前后位置和字符自动选择变体,但是也有例外,在相同的条件下可能会出现几种不同的显示,这个时候就需要另一种辅助——自由变体选择符——这是一种非字符类控制符,单纯是为了使字符显示正确,虽然不可见,但是存在。
这在后续的文字处理中就会出现一个问题:没有这些控制符,字在人眼看起来就是错的,有了这些字符,字看起来是正确的,但是字符序列明显跟实际拼写是不同的。那么,这些控制字符到底参与不参与后期的文字处理呢?
我想,这些控制符在后期的信息处理中应该都去掉,只留下正确的文字序列。既然,它们的作用是为了给人的眼睛看,那么就只保留在显示时使用即可。那么,这又出现了一个显示和处理不同步的问题——假如我们做检索的倒排文档索引,那么处理后的词可能就会与未处理的词不一致的情况,但是它们又都是属于一个词。如果检索不做索引,直接检索,这个时候又必须保留控制字符,否则,就与原文不一致,除非你有一份对原文进行处理的文档,但是这个时候就又需要对用户的检索词也进行处理才行!
总之,蒙古文检索不简单!