信息处理中的停用词
停用词——信息处理和信息检索领域,为了提高信息处理的效率和检索的精准度,会将没有实际意义或价值的词语排除,减少干扰。这些没有实际意义或者价值的词语就叫做停用词。停用词并不是废弃不用的词语,而多为具有语法意义而非实际意义的词汇。
英语中,例如“of”、“and”、“the”等,这些对于检索或者理解文本作用不大,所以通常会提前去掉。蒙古文中略有不同,在一些自然语言中,有部分词虽然出现的频率很高,但却没有实际的意义或者只起到构建语句结构的作用,这些词被称为停用词。例如,中文的停用词:呐、呗、的、呢、呵、呵呵、和、是、了、咱等等,英文停用词:about、be、can、do、from、good、like、more 等等。由于各种标点符号对实际检索也没有意义,所以停用词表也包含了各种标点符号。在对蒙古文进行检索过程中,同样也需要经过对停用词表的过滤,以提高蒙古文全文检索的效率和性能。
蒙古文的构词是在词干上缀接不同的词缀形成的,而词干是具有最基本意义的单位,所以为了在检索时提高检索效率就需要对其词缀进行切分,然后提取词干部分。蒙古文词是由字母组成,如果词是 4 字符单音节词或者组成词的字母数量不大于 3,那么不做切分处理。其中,蒙古文的单音节词是指一个蒙古文词由一个音节组成,其长度一般不大于 4 个字符,可以作为词干,否则对词缀进行切分。
蒙古文传统的词切分往往把词中的控制符作为分隔符使用,不能有效对文档进行分词。随着对蒙古文字体的研究不断完善,目前可以使用普通的空格和蒙古文标点符号来进行词与词之间的切分。