博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
中文词频统计
阅读量:6836 次
发布时间:2019-06-26

本文共 698 字,大约阅读时间需要 2 分钟。

本次作业的要求来自于:。

  • 1.下载一长篇中文小说。

      本次作业的小说来源于水浒传五十回至五十五回。

  • 2.从文件读取待分析文本。

     

  •  3.安装并使用jieba进行中文分词。

     

     

  • 更新词库,加入所分析对象的专业词汇。
  • 生成词频统计
  • 排序
  • 排除语法型词汇,代词、冠词、连词等停用词。
  •  输出词频最大TOP20,把结果存放到文件里

 

# 去除标点符号fuhao = {
'。','!','?','的','“','”','(',')',' ','》','《',','}jieba.add_word('宋江')words = list(jieba.cut(text))articleDict = {}articleSet = set(words)-fuhaofor w in articleSet: if len(w)>1: articleDict[w] = words.count(w)articlelist = sorted(articleDict.items(),key = lambda x:x[1], reverse = True)print(articlelist)# 对结果输出到text.csv中import pandas as pdfor i in range(10): print(articlelist[i])pd.DataFrame(data=articlelist).to_csv("F:\\xiaoshuo.csv",encoding='utf-8')

  • 生成词云

 

 

转载于:https://www.cnblogs.com/lxcbk/p/10553130.html

你可能感兴趣的文章
css 居中
查看>>
day7
查看>>
JPA设置表名和实体名,表字段与实体字段的对应
查看>>
社保卡补办
查看>>
03EventDemo
查看>>
05-----Mock.Random 扩展方法
查看>>
linq to sql 输出SQL语句
查看>>
继BAT之后 第四大巨头是谁
查看>>
[转] 多核CPU 查看进程分配的CPU具体核id
查看>>
[转] ELMO
查看>>
一些图书和出版社的网址
查看>>
jQuery源码解析之on事件绑定
查看>>
二分法查找--Python
查看>>
正则表达式 ip地址
查看>>
使用ndk编译c可执行程序
查看>>
一种计算e的方法
查看>>
与Jquery Mobile的第一次亲密接触
查看>>
Windows 8实例教程系列 - 开篇
查看>>
C# 多重overide
查看>>
安装arcgis server 10.2遇到的问题总结
查看>>