中文词频统计-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

中文词频统计

阅读量：5959 次

发布时间：2019-06-19

本文共 414 字，大约阅读时间需要 1 分钟。

import jiebatxt = open('小说.txt','r',encoding='utf-8').read()for i in '，。、：；“” \u3000':    txt = txt.replace(i,'')words = list(jieba.cut(txt)) dic = {}keys = set(words)for o in keys:    if len(o)==1:        continue    else:          dic[o] = words.count(o)+1 wc =list(dic.items())wc.sort(key=lambda x:x[1],reverse=True) for i in range(20):    print(wc[i])

　　

转载于:https://www.cnblogs.com/Sun584125503/p/7609597.html

你可能感兴趣的文章

List与数组的相互转换

Computer Science Theory for the Information Age-4: 一些机器学习算法的简介

socketserver模块使用方法

各型号英特尔CUP的功率

scanf（）中的%c 不能正常输入的问题

encodeURIcomponent编码和ASP.NET之间编码转换

实验三区域四连通填充算法

关闭selinux服务

centos中安装、升级git

单元测试基本路径覆盖法(转）

十三、栅栏CyclicBarrier

简单搭配(Collocation)隐私声明

2013编程之美资格赛【传话游戏】

关于Dictionary的线程安全问题

在python中单线程，多线程，多进程对CPU的利用率实测以及GIL原理分析

CentOS6.5+mysql5.1源码安装过程

C++: find()函数的注意事项

js的事件学习笔记

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-12-28 23:39:27 当前IP: 3.147.78.249 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我