分布式爬虫怎么处理Redis里的数据

2025-03-20 技术教程

这篇文章主要讲解了“分布式爬虫怎么处理Redis里的数据”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“分布式爬虫怎么处理Redis里的数据”吧！

存入MongoDB

1.启动MongoDB数据库：sudo mongod

2.执行下面程序：py2 process_youyuan_mongodb.py

#process_youyuan_mongodb.py#-*-coding:utf-8-*-importjsonimportredisimportpymongodefmain():#指定Redis数据库信息rediscli=redis.StrictRedis(host='192.168.199.108',port=6379,db=0)#指定MongoDB数据库信息mongocli=pymongo.MongoClient(host='localhost',port=27017)#创建数据库名db=mongocli['youyuan']#创建表名sheet=db['beijing_18_25']whileTrue:#FIFO模式为blpop，LIFO模式为brpop，获取键值source,data=rediscli.blpop(["youyuan:items"])item=json.loads(data)sheet.insert(item)try:printu"Processing:%(name)s<%(link)s>"%itemexceptKeyError:printu"Errorprocesing:%r"%itemif__name__=='__main__':main()

存入 MySQL

1.启动mysql：mysql.server start（更平台不一样）

2.登录到root用户：mysql -uroot -p

3.创建数据库youyuan:create database youyuan;

4.切换到指定数据库：use youyuan

5.创建表beijing_18_25以及所有字段的列名和数据类型。

6.执行下面程序：py2 process_youyuan_mysql.py

#process_youyuan_mysql.py#-*-coding:utf-8-*-importjsonimportredisimportMySQLdbdefmain():#指定redis数据库信息rediscli=redis.StrictRedis(host='192.168.199.108',port=6379,db=0)#指定mysql数据库mysqlcli=MySQLdb.connect(host='127.0.0.1',user='power',passwd='xxxxxxx',db='youyuan',port=3306,use_unicode=True)whileTrue:#FIFO模式为blpop，LIFO模式为brpop，获取键值source,data=rediscli.blpop(["youyuan:items"])item=json.loads(data)try:#使用cursor()方法获取操作游标cur=mysqlcli.cursor()#使用execute方法执行SQLINSERT语句cur.execute("INSERTINTObeijing_18_25(username,crawled,age,spider,header_url,source,pic_urls,monologue,source_url)VALUES(%s,%s,%s,%s,%s,%s,%s,%s,%s)",[item['username'],item['crawled'],item['age'],item['spider'],item['header_url'],item['source'],item['pic_urls'],item['monologue'],item['source_url']])#提交sql事务mysqlcli.commit()#关闭本次操作cur.close()print"inserted%s"%item['source_url']exceptMySQLdb.Error,e:print"MysqlError%d:%s"%(e.args[0],e.args[1])if__name__=='__main__':main()

感谢各位的阅读，以上就是“分布式爬虫怎么处理Redis里的数据”的内容了，经过本文的学习后，相信大家对分布式爬虫怎么处理Redis里的数据这一问题有了更深刻的体会，具体使用情况还需要大家实践验证。这里是亿速云，小编将为大家推送更多相关知识点的文章，欢迎关注！