博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬虫01图片
阅读量:7199 次
发布时间:2019-06-29

本文共 1454 字,大约阅读时间需要 4 分钟。

hot3.png

京东

import urllib.requestimport reimport osdef crawl(url, page):    html = urllib.request.urlopen(url).read()    html = str(html)    pattern = '
' result = re.compile(pattern).findall(html) result = result[0] pattern2 = '
' imglist = re.compile(pattern2).findall(result) x = 1 for imgurl in imglist: imgname = os.getcwd() + os.sep + str(page) + str(x) + ".jpg" imgurl = "http://" + imgurl try: urllib.request.urlretrieve(imgurl, filename=imgname) except urllib.error.URLError as e: if hasattr(e, "code"): x += 1 if hasattr(e, "reason"): x += 1 x += 1for i in range(1, 6): url = "https://list.jd.com/list.html?cat=9987,653,655&page=" + str(i) crawl(url, i)

千图网

import urllib.requestimport redef download_page(url):    request = urllib.request.Request(url)    reponse = urllib.request.urlopen(request)    data = reponse.read()    return datadef get_image(html):    regx = r'http://[\S]*\.jpg'    pattern = re.compile(regx)    image = re.findall(pattern, repr(html))  # repr用来转换表达式类型字符串    num = 1    for img in image:        i = download_page(img)  # 将每个img链接重新解析        with open('%s.jpg' % num, 'wb') as fp:            fp.write(i)            print('正在下载第%s张图片' % num)            num += 1    returnurl = 'http://www.58pic.com'html = download_page(url)get_image(html)

转载于:https://my.oschina.net/u/3646781/blog/1592638

你可能感兴趣的文章
代码外的任务很精彩 ---Software project survival guide 读书报告
查看>>
Java io流学习总结(二)
查看>>
PHP中的PDO函数库详解
查看>>
C++编程常见错误
查看>>
Converter of C#&VB.NET
查看>>
修改ASPCMS升级扩展功能
查看>>
模拟HTTP请求的返回&shell写cgi
查看>>
《跟任何人都聊得来》读书笔记
查看>>
问题tips
查看>>
QEMU漏洞挖掘
查看>>
ios 下拉刷新 上拉更多
查看>>
数据结构之病毒感染检测问题
查看>>
PHP-Manual的学习----【序言】
查看>>
3、Lambda表达式
查看>>
梦断代码阅读笔记02
查看>>
HDU 4001 To Miss Our Children Time
查看>>
ORACLE表建立自增列
查看>>
PHP----------用curl方式请求接口在同一个项目里面的时候不能请求的情况
查看>>
phpstorm----------phpstorm设置自动更新的ssh信息如何修改--后续增加如何设置自动更新...
查看>>
java指纹识别+谷歌图片识别技术_源代码
查看>>