首页 排行 新闻热点 体育资讯 财经新闻 地方新闻 娱乐资讯 图片新闻

对网易新闻排行榜的抓取

2019-08-12

  对网易新闻排行榜的抓取,是我以前学爬虫做的一个小实验。像下图,我的目的就是想把网易新闻排行榜这个页面下的所有新闻的标题和对应的链接都下载下来,分专题保存。

  抓取页面很容易,但是有一点,在页面分析的时候,我发现并不是所有专题的页面结构是一样的。用正则表达式分析的话,速度确实慢了点,这时候就要讲究不同解析规则的相互配合。而正则表达式,对于获取多种组合数据有一定的可取之处。

  话不多说,上个简单的代码,同时我把python代码打包成exe可执行文件。代码和exe文件可以在NewsSpider下载。对于没有python环境的情况下,直接双击exe文件就可以开始抓取。这样子,我们就可以在上班的时候大模大样的看文档的姿态来筛选感兴趣的新闻,而不被领导发现喽。。

热门文章

随机推荐

推荐文章