在制作爬虫的时候需要对我们的爬虫进行伪装,有两种伪装的方式:第一种是通过代理IP,第二种是通过修改user-agent。

一、代理IP

二、user-agent

importrandom#useragent列表USER_AGENT_LIST=['MSIE(MSIE6.0;X11;Linux;i686)Opera7.23','Opera/9.20(Macintosh;IntelMacOSX;U;en)','Opera/9.0(Macintosh;PPCMacOSX;U;en)','iTunes/9.0.3(Macintosh;U;IntelMacOSX10_6_2;en-ca)','Mozilla/4.76[en_jp](X11;U;SunOS5.8sun4u)','iTunes/4.2(Macintosh;U;PPCMacOSX10.2)','Mozilla/5.0(Macintosh;IntelMacOSX10.6;rv:5.0)Gecko/20100101Firefox/5.0','Mozilla/5.0(Macintosh;IntelMacOSX10.6;rv:9.0)Gecko/20100101Firefox/9.0','Mozilla/5.0(Macintosh;IntelMacOSX10.8;rv:16.0)Gecko/20120813Firefox/16.0','Mozilla/4.77[en](X11;I;IRIX;646.5IP30)','Mozilla/4.8[en](X11;U;SunOS;5.7sun4u)']#随机生成useragentUSER_AGENT=random.choice(USER_AGENT_LIST)

---------------------


注意事项:

1、中间件定义完要在settings文件内启用

2、爬虫文件名和爬虫名称不能相同,spider目录内不能存在相同爬虫名称的项目文件

3、做一个文明守法的好网民,不要爬取公民的隐私数据,不要给对方系统带来不必要的麻烦。