博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
多线程爬取都挺好链接并保存到mongodb
阅读量:6834 次
发布时间:2019-06-26

本文共 1148 字,大约阅读时间需要 3 分钟。

  • 一个比较简单,python3多线程使用requests库爬取都挺好,并使用正则提取下载链接,保存到mongodb
#!/usr/bin/env python# -*- coding:utf-8 -*-"""@author:Aiker Zhao@file:doutinghao.py@time:下午8:18"""import requestsimport reimport pymongofrom multiprocessing import PoolMONGO_URL = 'localhost:27017'MONGO_DB = 'doutinghao'MONGO_TABLE = 'doutinghao'client = pymongo.MongoClient(MONGO_URL, connect=False)db = client[MONGO_DB]def get_result(url):    response = requests.get(url).text    # print(reponse.text)    pattern = re.compile('', re.S)    result = re.findall(pattern, response)    if result:        for i in result:            url, name = i            yield {                "name": name,                'url': url            }def save_to_mongo(result):    if db[MONGO_TABLE].insert(result):        print('存储到MongoDB成功', result)        return True    return Falsedef main(result):    # result = get_result(url)    save_to_mongo(result)if __name__ == '__main__':    pool = Pool()    url = "https://www.xl720.com/thunder/34283.html"    item = [item for item in get_result(url)]    # print(item)    pool.map(main, item)    pool.close()    pool.join()

多线程爬取都挺好链接并保存到mongodb

多线程爬取都挺好链接并保存到mongodb

多线程爬取都挺好链接并保存到mongodb

转载于:https://blog.51cto.com/m51cto/2375053

你可能感兴趣的文章
OSChina 周四乱弹 —— 十一精品旅游路线
查看>>
freebsd 下编译php的imap
查看>>
前端那些事之websoket篇
查看>>
vs环境下C++dll生成和使用(基础篇)
查看>>
Android 面试题总结之Android 基础(一)
查看>>
CentOS6.5下安装mysql-5.6
查看>>
Unable to find the wrapper "https"错误的解决办法
查看>>
Guava并发:ListenableFuture与RateLimiter示例
查看>>
hdoj_1042_N!_大數優化_模擬
查看>>
美团扫码付小程序的优化实践
查看>>
将应用的数据库复制到SD卡上面
查看>>
squid windows 配置日志
查看>>
wordpress 安装主题
查看>>
linux磁盘管理及文件系统
查看>>
梭子鱼垃圾邮件网关-Barracuda Spam & Virus Firewall Email Alert: outQueueHigh
查看>>
mysql性能调优my.cnf详解
查看>>
Java基础知识回顾-7
查看>>
Django 使用分页
查看>>
实现HTTPS系列第五弹(终章)之【通过OpenSSL实现HTTPS】
查看>>
Windows API OpenURL无法设置超时时间替换方法
查看>>