频道栏目
首页 > 程序开发 > Web开发 > Python > 正文
如何利用python把文章到数组中存储等待处理
2017-08-10 09:46:40      个评论    来源:suqi791776的专栏  
收藏   我要投稿

我们经常会遇到需要把一篇文章的所有单词提取出来,做进一步分析的需求。但是文章中存在各种标点符号,需要首先去除。所以本文主要介绍一种简单的文章单词提取方法。

主要原理: 所有英文文章,除去标点,所有正文都是由26个英文大写字母和小写字母,以及0-9的数组组成,所以我们只需要逐个字符判断其是否在这个范围内,在的话就将其原封不动的保留。

代码实现:

fin=open('test_7.txt','r')
lines=fin.readlines() 
fin.close()

chardigit='ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789 '
for line in lines:
    sts=''
    for ch in line:
        if ch in chardigit:
            sts=sts+ch
    print(sts)
    print(sts.split()) #split the string into words
点击复制链接 与好友分享!回本站首页
上一篇:设计模式-迭代器模式-iterator-python
下一篇:python队列在Queue,Collection 的基础
相关文章
图文推荐

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

版权所有: 红黑联盟--致力于做实用的IT技术学习网站