大数据时代,怎么能不了解“爬虫”是什么?

如今的Python语言火遍大江南北,无论是程序员还是非程序员,应该都见过学习python的广告。那么基于python最热的一个词是什么?没错,答案就是:爬虫。我相信,大多数非程序员都听过这个词,却不知爬虫是用来干什么的?又是如何实现的呢?

什么是爬虫

爬虫是一个提取网页的程序或脚本,类似一只隐形的蜘蛛,一边爬一边收集信息。可以爬取校园网站、购物网站、旅行网站等等,学会了爬虫就可以进行各种骚操作了。不过爬取一些网站要三思,有句话是这样说的:“爬虫学的好,监狱进得早”。

爬虫爬取网页的基本步骤

  • 导入requests库,request可以帮助我们发送爬取的请求

>>> import requests

  • 获取URL,URL相当于网页连接地址,我们以百度为例,爬取百度首页

>>> r=requests.get("http://www.baidu.com")

  • 返回文本,就完成了

>>> r.text

爬虫爬取图片的基本步骤

  • 保存好图片存取路径,以及写好图片名称

>>> path="D:\我的文件夹\图片爬取\picture.jpg"

  • 右键复制图片地址,爬取图片


>>> import requests

>>> r=requests.get(“https://tse1-mm.cn.bing.net/th?id=OIP.BX8LJipOhUSQQx8GCCplWQHaIM&w=184&h=204&c=8&rs=1&qlt=90&dpr=1.25&pid=3.1&rm=2”),

把二进制文件保存为图片并写入文件夹,最后关闭文件夹

>>> with open(path,"wb")as f:

f.write(r.content)

>>> f.close()

我们打开文件夹,就多出了一张图片。



以上就是爬取的基本步骤,当然,我们大多时候想要爬取的网站都是艰辛的,包括改变状态码、改变头部信息从而获得访问权限。通过阅读以上内容,你有没有对爬虫有了初步认识呢?

原文链接:,转发请注明来源!