中文分词太难

中文分词太难

最近在做自动标签生成功能模块，需要统计文章中各个实词的出现频度，以自动筛选出合适的标签。这就需要中文分词技术支持了，毕竟中文语句不像英文，有空格做单词的分隔符。上网搜了一堆讲中文分词算法的文章，发现这个东西做起来确实十分复杂，要有效地解决这个问题，差不多可以写出10篇研究生论文。

中文分词有三大难题。第一是需要足够大的词库进行词语匹配，无法自动应对语言的发展；第二是中文句子断句方法众多，需要根据上下文语义选择消除歧义；第三是中文分词算法多半依赖中文词库，很难做出适合Javascript浏览器使用的实现。