20年3月14日 00:00
其实高赞的回答是没有太大用处的。
在NLP中,目前对词语的表示用的比较流行的方法都是通过上下文判定词义。
其实比较早之前,印象中是16年,百度就通过这个思想,通过无监督+启发式算法,自动发现了很多的黑产新词汇。搜索关键词: 段海新 CCS 黑产词汇
当然,高赞回答所说的改造文难以识别,这的确是目前的现状。
然而,工业界已经有相当多的对抗方法,这种方法目测几年后就将失效,因为,大公司有着非常充分的数据,甚至完全可以维护一个替换词表,把火星文,数字之类的给替换掉。
结论:此方法治标不治本。
所以即使用改造文体的方式,仍然不能有效对抗内容审查。
其实提问题的人说的方法,是有一定可行性的:可以通过绝对无法被封的政治正确词语,通过巧妙的制造歧义,表达句意。
是一种相当不错的研究方向,值得点赞。
还有其他的办法,其实早就在用了,比如以前人们就通过对暗号,增加语句中的数据冗余的方式,隐藏自己真实句意。这种办法属于隐写。
得益于中文的句子即便改变一些顺序也能读懂意思,隐写在对抗内容审查方面还有很大的潜力。