踏出Python爬虫第一步——爬取一个网页的内容

首先我们来了解一下爬虫工作的一个基本流程:

没错,过程其实很简单, 就是发送请求->获取源码->解析网页。

就像我们平时通过浏览器请求一个网页一样,向一个url地址发起请求,然后服务端给我们返回一个网页的内容。只是浏览器将返回的内容进行了渲染,以一种很友好的方式展示给我们看。

所以我们想要爬取网页的数据, 就需要写程序逻辑去解析整个网页,获取到我们想要的数据。

发送请求

在这里我们使用requests库来实现web请求

#引入requests模块
import requests 

#要请求的url值
url="http://www.hopecoder.com/" 
#伪造自己是浏览器访问的
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'}
#requests使用get方法
html=requests.get(url,headers=headers)
#显示返回的值html中的text文本
print(html.text)
解析网页

在这里我介绍一个用来灵活方便做网页解析的库——BeautifulSoup,执行以下命令进行库的安装:

pip install BeautifulSoup4

使用它可以让我们快速的获取网页的一些基本信息,例如title:

from bs4 import BeautifulSoup
val = BeautifulSoup(html.text, 'html.parser')
print(val.title)

我们运行一下,可以得到如下结果:

我们还可以把爬取到的内容存到文件里面:

f = open(r'D:\hopecoder.html',mode='w',encoding="utf-8")
f.write(html.text)
f.close() 

这样我们就实现了一个简单的python爬虫。

发表评论

邮箱地址不会被公开。 必填项已用*标注