爬取腾讯网的热点新闻文章 并进行词频统计(Python爬虫+词频统计) Python 第1张

前言

文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者:一棵程序树

SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。

PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun

我们以财经分栏为例,这里我们观察网页源码可以看到这些新闻的排布都是放在一个无序列表中,每一条新闻都是一个li,那么我们只要获取了所有的li(即li对应的ul)就能进一步解析。所以我们通过beautfulsoup来解析源码。那么获取所有li就很简单了,一行代码

爬取腾讯网的热点新闻文章 并进行词频统计(Python爬虫+词频统计) Python 第2张

 

爬取腾讯网的热点新闻文章 并进行词频统计(Python爬虫+词频统计) Python 第3张

二、首页要爬取的内容(上图绿色方框中的内容)

1、详情页的链接地址(一行代码)

 

爬取腾讯网的热点新闻文章 并进行词频统计(Python爬虫+词频统计) Python 第4张

2、该条新闻所属的标签(一行代码)

爬取腾讯网的热点新闻文章 并进行词频统计(Python爬虫+词频统计) Python 第5张

那么步骤如下:

2.1 先定义我们获取网页源码的函数

爬取腾讯网的热点新闻文章 并进行词频统计(Python爬虫+词频统计) Python 第6张

 

爬取腾讯网的热点新闻文章 并进行词频统计(Python爬虫+词频统计) Python 第7张

接下来我们就要获取一下所有的li,其实用beutlfulsouo一行代码就可以搞定

 

爬取腾讯网的热点新闻文章 并进行词频统计(Python爬虫+词频统计) Python 第8张

获取之后要做一步判断,find_all返回的是一个列表元素,因为页面上的ul(无序列表)有多个我们不知道新闻的列表对应的是哪一个,所以要自己看一下。这里我们要的新闻的列表是uls的第二个元素,即uls[1].

2.2解析首页中的新闻详情页的链接,标签

 

爬取腾讯网的热点新闻文章 并进行词频统计(Python爬虫+词频统计) Python 第9张

三、解析详情页

详情页就更好说了。把标题和正文部分解析保存即可

爬取腾讯网的热点新闻文章 并进行词频统计(Python爬虫+词频统计) Python 第10张

 

爬取腾讯网的热点新闻文章 并进行词频统计(Python爬虫+词频统计) Python 第11张

四、数据更新

因为爬取的新闻都是实时的热点新闻,每次爬取的内容都不同,所以加上一个此步骤。将每次爬取的与之前数据不重复的内容保存下来。

爬取腾讯网的热点新闻文章 并进行词频统计(Python爬虫+词频统计) Python 第12张

五、词频统计

这里我在网上下了一份停用词表,就是代码中的stop_words.txt.这个里面的内容网上随便搜一搜就有了。

爬取腾讯网的热点新闻文章 并进行词频统计(Python爬虫+词频统计) Python 第13张

六、主函数即效果实现

如果要爬取多个分类的内容,那么把子类的链接加入待爬取的链接列表中就好了。完整代码如下:

爬取腾讯网的热点新闻文章 并进行词频统计(Python爬虫+词频统计) Python 第14张

 

爬取腾讯网的热点新闻文章 并进行词频统计(Python爬虫+词频统计) Python 第15张

2020年最新Python教程:

如果你处于想学Python或者正在学习Python,Python的教程不少了吧,但是是最新的吗?

说不定你学了可能是两年前人家就学过的内容,在这小编分享一波2020最新的Python教程。

爬取腾讯网的热点新闻文章 并进行词频统计(Python爬虫+词频统计) Python 第16张

 

爬取腾讯网的热点新闻文章 并进行词频统计(Python爬虫+词频统计) Python 第17张

 

爬取腾讯网的热点新闻文章 并进行词频统计(Python爬虫+词频统计) Python 第18张

 

爬取腾讯网的热点新闻文章 并进行词频统计(Python爬虫+词频统计) Python 第19张

 

以上这些教程小编已经为大家打包准备好了,希望对正在学习的你有所帮助!

获取方式,私信小编 “ 资料 ”,即可免费获取哦!

扫码关注我们
微信号:SRE实战
拒绝背锅 运筹帷幄