小钙-1984bbs
小钙的头像-1984bbs
这家伙很懒,什么都没有写...

19年11月8日 00:00
从NLP,尤其是目前大数据分析时代的角度来说,最难的当是使用量最少的语言,因为样本数最少。目前NLP最常用的deep vector embedding方案还是基于大数据训练的,所以汉语和英语是两大最容易审查的语言,而非洲和南美部落里的神必语言是最难审查的。除去deep learning式的审查,使用传统的NLP审查的话分析语其实是最难审查的,因为分析语不基于词根变化而是根据各种stop words改变词性,所以其实是相比分析语较难从句法学上找到规律的。 从人工或单纯的敏感词的角度来说,应该是使用者越少的语言越容易审查。使用者少导致语言演化缓慢,所以新词汇和语法不会被制造,进而使得人工审查无需更新自己的知识储备,更方便的找到审查员。 真正最难审查的其实是皮钦语(Pidgin),也就是多种语言混合起来的手法,比如: 原文:二ゴロ、俺はニデシンウェイをtolerate nai, now you a sein of usになれ。 翻译:你够了,我无法忍受你的行为,现在你将成为我们中的一员。 解析:二ゴロ(nigoro),俺はニデシンウェイ(ni de shinuei) をtolerate nai(ない为日语否定后缀), now you a sein(せいいん 成員) of usになれ(成れ,成为)。 谷歌翻译(检测到日文):Nigoro,我可以成为一个宽容的奈。 其中还可以有各种用法,上面是把汉语拼音写成片假名,然后日语和英语混用,使用日语语法。也可以把汉语拼音写成日语汉字(万叶假名出口转内销并感),然后使用英文语法: 原文:ニ号郎、我cannot連署your真惠、now you will become和麺乗で胃炎。 解析:ニ号郎 (nigourou)、我 (wa) cannot 連署 (renshou) your 真惠 (shinwe)、now you will become和麺乗で胃炎 (wamen jou de ien)。 谷歌翻译(检测到中文):倪乃南,我不能拥有自己的星座,现在您将成为日本面条和胃炎。 不过这种皮钦语要求有点高,至少要会两种语言,但是如果会官话以外的方言的话,也可以算两种语言。可以参考粤语的写法,其实就是其中一种。