踏出Python爬虫第一步——爬取一个网页的内容
首先我们来了解一下爬虫工作的一个基本流程:

没错,过程其实很简单, 就是发送请求->获取源码->解析网页。
就像我们平时通过浏览器请求一个网页一样,向一个url地址发起请求,然后服务端给我们返回一个网页的内容。只是浏览器将返回的内容进行了渲染,以一种很友好的方式展示给我们看。
所以我们想要爬取网页的数据, 就需要写程序逻辑去解析整个网页,获取到我们想要的数据。
发送请求
在这里我们使用requests库来实现web请求
#引入requests模块 import requests #要请求的url值 url="http://www.hopecoder.com/" #伪造自己是浏览器访问的 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'} #requests使用get方法 html=requests.get(url,headers=headers) #显示返回的值html中的text文本 print(html.text)
解析网页
在这里我介绍一个用来灵活方便做网页解析的库——BeautifulSoup,执行以下命令进行库的安装:
pip install BeautifulSoup4
使用它可以让我们快速的获取网页的一些基本信息,例如title:
from bs4 import BeautifulSoup
val = BeautifulSoup(html.text, 'html.parser')
print(val.title)
我们运行一下,可以得到如下结果:

我们还可以把爬取到的内容存到文件里面:
f = open(r'D:\hopecoder.html',mode='w',encoding="utf-8") f.write(html.text) f.close()
这样我们就实现了一个简单的python爬虫。