之前发了篇文章:一组有意思的对比:18大和20大高频词
https://pincong.rocks/article/id-47583__sort_key-agree_count__sort-DESC
有人说你拿全文和实录的演讲稿对比不准确。
我想了下有道理,且我都不知道source里的18大数据是哪儿来的。
于是乎,求人不如求己,我自己做好了。
报告/实录报告source:
十八大全文:http://dj.xmdh.com/zxxx/ShowArticle.asp?ArticleID=254
十九大实录:https://finance.sina. cn/china/gncj/2017-10-18/detail-ifymvuyt4098830.d.html
十九大全文:http://www.gov. cn/zhuanti/2017-10/27/content_5234876.htm
二十大实录:
找了两个,感觉差不多:
http://www.cb.com. cn/index/show/jj/cv/cv12536067107
https://news.ifeng.com/c/8K9l4qcZtaw
分析方式
1. 微词云分词
https://fenci.weiciyun.com/cn/?ut=wcysitetry&
原因一是因为方便,二是因为基于语义的分类更加准确。比如含有“市场”两字的,并不一定是同一个意思:
2. 手工
这种就简单粗暴了,直接word里搜索,词频就等于出现的次数除以总字数
分析结果
微词云能输出所有词的次数和频率,因为太长我也不知道怎么加附件,就直接放上一个贴里的关键词统计吧:
结论就大家自己得出好了。
我想提醒的一点是,不要仅仅看出现次数,因为报告的词数差距挺大的,而且词频更能说明这个词在整篇文章里的重要性。
如果大家对其他词的频率变化感兴趣,可以自己去试试看,并浪费不了多少时间。
暂无评论内容