蒙古文文字处理中的控制符问题

蒙古文的信息化，是将蒙古文字通过现代信息设备输入输出，并且能够相互交换交流。因为蒙古文是拼音文字，所以采用了拼音文字的编码方法，对字母按照读音进行编码—— 也就是在 Unicode 中的名义字符，又因为蒙古文每个字符很根据前后位置和字母的关系出现很多不同的形式变体，所以采用了类似阿拉伯文的编码方式——在名义字符的基础上，自定义了不同的变体——显现字符。大多数情况下，正常的输入，字符会根据前后位置和字符自动选择变体，但是也有例外，在相同的条件下可能会出现几种不同的显示，这个时候就需要另一种辅助——自由变体选择符——这是一种非字符类控制符，单纯是为了使字符显示正确，虽然不可见，但是存在。

这在后续的文字处理中就会出现一个问题：没有这些控制符，字在人眼看起来就是错的，有了这些字符，字看起来是正确的，但是字符序列明显跟实际拼写是不同的。那么，这些控制字符到底参与不参与后期的文字处理呢？

我想，这些控制符在后期的信息处理中应该都去掉，只留下正确的文字序列。既然，它们的作用是为了给人的眼睛看，那么就只保留在显示时使用即可。那么，这又出现了一个显示和处理不同步的问题——假如我们做检索的倒排文档索引，那么处理后的词可能就会与未处理的词不一致的情况，但是它们又都是属于一个词。如果检索不做索引，直接检索，这个时候又必须保留控制字符，否则，就与原文不一致，除非你有一份对原文进行处理的文档，但是这个时候就又需要对用户的检索词也进行处理才行！

总之，蒙古文检索不简单！