网络爬虫框架Scrapy怎么用

2024-10-27 技术教程

这篇文章将为大家详细讲解有关网络爬虫框架Scrapy怎么用，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。

框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。

安装

首先，确定你的电脑上已经安装了 Python 3 以及对应的 pip。可以使用下面的命令查看：

$python3--versionPython3.6.3$pip3--versionpip9.0.1from/usr/local/lib/python3.6/site-packages(python3.6)

如果没有安装的话，推荐使 Homebrew 这个工具来进行安装。

pip 是 Python 的一个包管理工具，类似于 npm，可以在线安装、卸载所有的第三方 Python 模块，并自动处理依赖关系。这里我们使用下面的命令来安装 Scrapy 模块：

$pip3installscrapy教程：一个抓取豆瓣电影 Top 250 的爬虫

首先，我们使用下面的命令来创建并初始化 Scrapy 项目：

$scrapystartprojectdoubanmovie

这样便会在当前目录下创建一个 doubanmovie 的爬虫项目，其内部结构如下：

$tree.├──doubanmovie│├──__init__.py│├──__pycache__│├──items.py│├──middlewares.py│├──pipelines.py│├──settings.py│└──spiders│├──__init__.py│└──__pycache__└──scrapy.cfg

其中：

scrapy.cfg 为 Scrapy 项目的核心配置文件

items.py 用于定义爬虫程序爬取到的数据实体的属性结构

piplines.py 用于定义爬虫程序每次爬取到的数据实体进行后续处理的操作流程，比如写入文件系统或数据库

settings.py 为爬虫程序的配置文件，可以在这里定义多个 pipline 和 middleware

spiders 文件夹中存放爬虫文件

接着，我们需要在 items.py 文件中定义电影实体的属性结构：

classDoubanmovieItem(scrapy.Item):#definethefieldsforyouritemherelike:#name=scrapy.Field()rank=scrapy.Field()#豆瓣排名title=scrapy.Field()#电影名称poster=scrapy.Field()#电影海报link=scrapy.Field()#链接地址rating=scrapy.Field()#豆瓣评分pass

然后，我们使用下面的命令来创建一个名为 doubanspider 的爬虫程序：

$scrapygenspidermoviespiderdouban.com

运行之后会在 spiders 目录下生成一个名为 moviespider.py 的爬虫文件，内部定义了爬虫的名称、作用域及起始 URL 等基本信息，以及一个解析函数，该函数的主要功能便是通过 XPath 分析页面中的 HTML 元素，并将解析结果输出：

classMoviespiderSpider(scrapy.Spider):name='moviespider'allowed_domains=['douban.com']start_urls=['https://movie.douban.com/top250']defparse(self,response):movie_items=response.xpath('//div[@class="item"]')foriteminmovie_items:movie=DoubanmovieItem()movie['rank']=item.xpath('div[@class="pic"]/em/text()').extract()movie['title']=item.xpath('div[@class="info"]/div[@class="hd"]/a/span[@class="title"][1]/text()').extract()movie['poster']=item.xpath('div[@class="pic"]/a/img/@src').extract()movie['link']=item.xpath('div[@class="info"]/div[@class="hd"]/a/@href').extract()movie['rating']=item.xpath('div[@class="info"]/div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()').extract()yieldmoviepass

通过爬虫解析后的实体数据，会通过一种 Pipeline 的过程将结果进行打印输出、存入文件或数据库等：

classDoubanmoviePipeline(object):defprocess_item(self,item,spider):print('豆瓣排名：'+item['rank'][0])print('电影名称：'+item['title'][0])print('链接地址：'+item['link'][0])print('豆瓣评分：'+item['rating'][0]+'\n')returnitem

由于豆瓣电影的网站设置了防爬虫技术，所以在完成上述步骤后运行爬虫会出现 403 的 HTTP 状态码。于是我们需要在发送的请求中加入 User Agent 信息来伪装成一个浏览器：

fromscrapy.downloadermiddlewares.useragentimportUserAgentMiddlewareclassFakeUserAgentMiddleware(UserAgentMiddleware):defprocess_request(self,request,spider):request.headers.setdefault('User-Agent','Mozilla/5.0(Macintosh;IntelMacOSX10_13_2)AppleWebKit/537.36(KHTML,likeGecko)Chrome/63.0.3239.84Safari/537.36')

最后，我们将上述修改写入配置文件：

#Enableordisabledownloadermiddlewares#Seehttp://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.htmlDOWNLOADER_MIDDLEWARES={'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware':None,'doubanmovie.fakeuseragent.FakeUserAgentMiddleware':543,}#Configureitempipelines#Seehttp://scrapy.readthedocs.org/en/latest/topics/item-pipeline.htmlITEM_PIPELINES={'doubanmovie.pipelines.DoubanmoviePipeline':300,}

运行 scrapy crawl moviespider 命令，便会在控制台中输出爬取到的数据。

关于“网络爬虫框架Scrapy怎么用”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，使各位可以学到更多知识，如果觉得文章不错，请把它分享出去让更多的人看到。