任重而道远

自动文字内容检查技术还有很长的路要走!

今天收到万胜网络的消息,说我的文字涉及敏感内容,被网警责令删除,并说不删除就只能关闭网站。我很气愤,因为我的内容并没有过激。我知道只是因为其中的部分敏感词汇触发了基于关键字匹配技术的自动审查机制,才有这样的结果。后来只好致电上海公共信息安全网络监察处,才得到解释:信息量太大,自动匹配技术仅仅用于嫌疑内容发现,然后再由人工复查。我的这篇文章没有触犯有关法律,应该是复查人员疏忽了。

我这才放心下来,看来信息安全部门的工作制度还是能尽量保证网络言论自由的。但另一方面,用机器进行内容审查能否更进一步降低复查人员的工作负荷呢?现在的自动内容审查几乎都是基于简单的关键字匹配技术,这种技术的弊端显而易见,一方面它无法对内容的语义进行分析,另一方面它难以发现不怀好意者用同音字或者在字间插入符号等方式绕过自动审查。于是审查出来的可疑内容也许并没有问题,而审查通过的非可疑内容在语义上却是有问题的。

用机器进行自动内容审查的应用面很广,小到留言板里的文明用语审查,大到国家对敏感信息的过滤,都需要这样的工具帮助降低人工工作负担。可是对自然语言进行语义分析,让机器能看明白作者的意思,何其难也。我们这些软件工作者在这个方面还真是任重而道远啊。

也許你還會喜歡

一条评论

  1. 我毕业论文准备写这个的来着……基于语义的文字检索……不过估计只能空谈了。话说网pol.ice的工作效率真高……20号的内容,24号就通知关闭了……

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

Time limit is exhausted. Please reload CAPTCHA.