博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python 统计单词个数
阅读量:5823 次
发布时间:2019-06-18

本文共 771 字,大约阅读时间需要 2 分钟。

根据一篇英文文章统计其中单词出现最多的10个单词。

# -*- coding: utf-8 -*-

import urllib2
import re
from collections import Counter

'''

007之雷霆谷 You Only Live Twice',可以从http://novel.tingroom.com/jingdian/1584/47084.html这个地址获取,
列出其中使用最频繁的10个单词,并给出它们的出现次数
Python2.7上测试通过
'''

'''根据URL网址读取数据'''

def Get_Data(url):
  data = urllib2.urlopen(url).read()
  return data

'''统计单词及个数,text是要统计的文章字符串,n是统计次数最多的前几个'''

def PrintWordsCount(text,n=1):
  '''调用Counter用正则进行拆分'''
  wordCountList = Counter(re.split(r'\W+', text, flags=re.M|re.I)).most_common(n)
  print '单词\t次数'
  print '\n'.join([w+'\t'+str(c) for w,c in wordCountList])

#测试代码

def test():
url ='http://novel.tingroom.com/jingdian/1584/47084.html'
data = Get_Data(url)
PrintWordsCount(data,10)
test()

转载于:https://www.cnblogs.com/shaosks/p/5614026.html

你可能感兴趣的文章
spring两大核心对象IOC和AOP(新手理解)
查看>>
数据分析相关
查看>>
Python LDAP中的时间戳转换为Linux下时间
查看>>
微信小程序蓝牙连接小票打印机
查看>>
环境错误2
查看>>
C++_了解虚函数的概念
查看>>
全新jmeter视频已经上架
查看>>
Windows 8下如何删除无线配置文件
查看>>
解决Windows 7中文件关联和打开方式
查看>>
oracle系列(五)高级DBA必知的Oracle的备份与恢复(全录收集)
查看>>
hp 服务器通过串口重定向功能的使用
查看>>
国外10大IT网站和博客网站
查看>>
android第十一期 - SmoothSwitchLibrary仿IOS切换Activity动画效果
查看>>
zabbix 批量web url监控
查看>>
MongoDB CookBook读书笔记之导入导出
查看>>
shell如何快速锁定所有账号
查看>>
HTML 5实现的手机摇一摇
查看>>
Linux 文件IO理解
查看>>
Ninject 2.x细说---2.绑定和作用域
查看>>
30个非常时尚的网页联系表单设计优秀示例
查看>>