做中文搜索,关键词提取,文档分类都离不开中文分词,能用的代码包有如下

  • 单字切分 sphinx只要把min_word_len设置为1,并配置charset_table,默认就是单字切分,lucene用StandardAnalyzer
  • CJKAnalyzer lucene自带,两两分词,就是把 ABCD 分成 AB,BC,CD 3段
  • PaodingAnalyzer 开源,可以用于lucene http://code.google.com/p/paoding/
  • sphinx-for-chinese 基于词频字典,sphinx中文分词专属插件,http://www.sphinx-search.com
  • MMseg 基于词典+最大匹配+歧义消除,sphinx和lucence都能用,(sphinx可以直接使用coreseek.com的版本)MMseg还有 python,ruby,php,java等各种语言的开发包
  • smallseg 很轻量级的python库,只能单独使用不能集成到(lucene或者sphinx)当中
  • jieba 另一个python分词库 https://github.com/fxsjy/jieba
  • ICTCLAS 中科院的分词算法,sphinx和lucene都能用,但是使用比较麻烦,还分商业版和免费版

本文地址: http://lutaf.com/157.htm 鲁塔弗原创文章,欢迎转载,请附带原文链接