最近在做自动标签生成功能模块,需要统计文章中各个实词的出现频度,以自动筛选出合适的标签。这就需要中文分词技术支持了,毕竟中文语句不像英文,有空格做单词的分隔符。上网搜了一堆讲中文分词算法的文章,发现这个东西做起来确实十分复杂,要有效地解决这个问题,差不多可以写出10篇研究生论文。
中文分词有三大难题。第一是需要足够大的词库进行词语匹配,无法自动应对语言的发展;第二是中文句子断句方法众多,需要根据上下文语义选择消除歧义;第三是中文分词算法多半依赖中文词库,很难做出适合Javascript浏览器使用的实现。
3 条评论
不是有现成的中文分词产品了么?中科院的ICTCLAS,还有很多人写的……
Javascript,谢谢
…这个的话你要求也太高了点吧。不过我现在打算毕业论文就写把ICTCLAS集成到Nutch里面……