用pkuseg分词并制作词云
参考:https://www.jb51.net/article/146986.htm
之前参考以上博客,利用jieba分词并制作了《格林德沃之罪》的词云。
但是不太理想,这一次刚好看到了新发布的pkuseg,利用这个新的分词工具做词云。
这一次加入了自己的词典
1 | 盖勒特 |
主要代码,参考见置顶网址
1 | import re#正则表达式 |
词云结果
十分满意的一个结果,利用文本制作词云
利用频率制作词云,可以看到停用词去除的不太完善,不如文本制作词云。
重新用结巴分词,加入词典,可以看到结果也是好了很多。
pkuseg分词结果一览(部分)1
2{'邓布利多': 84, '格林德': 3, '沃领': 1, '结婚证': 3, '伤害': 4, '对方': 4, '后来': 3, '嗅嗅': 14, '帮': 2, '偷到': 1, '准备': 5, '销毁': 1, '格林德沃': 86, '离婚': 3, '故事': 99, '强大': 5, '年轻': 12, '脱发': 1, '老': 5, '却': 26, '长': 13, '出': 33, '浓密': 2, '秀发': 1, '非常': 33, '值得': 5, '上班族': 1, '中': 52, '普及': 1, '克雷登斯': 7,'格林德沃法': 1, '力不及伏': 1, '魔但': 1,'普老年': 1}
# 以上截取的部分可以看出还是有缺陷。