Python爬虫简单示例——爬取全球新冠肺炎疫情数据

首先,这个python爬虫示例非常简单,仅仅是通过http请求指定目标地址然后将获取到的json数据存下来。

在获取数据之前,我们需要先安装好所需的包requests和pandas,一句命令即可

pip install requests pandas

安装过程如图:

我打算从qq新闻里面去获取这些数据,用chrome浏览器访问下方地址

https://news.qq.com/zt2020/page/feiyan.htm#/global?pool=bj

按F12打开chrome浏览器的控制台,选择“network”页签,找到ranklist的请求地址,先记下来

接下来开始我们的编程之旅,编写好取数的代码,顺便看下取回来的数据长什么样子

import requests
import json
import pandas as pd
# 刚才复制的url地址
url='https://api.inews.qq.com/newsqa/v1/automation/foreign/country/ranklist'
r=requests.get(url)#用requests获取地址
content=json.loads(r.text)#将所有json数据转化为数据字典的形式
print(content)
print(type(content))# 我们也可以查看它现在的数据类型<dict>就代表数据字典的形式

我们可以看到通过print命令打印出来了数据,以及数据的类型

然后我们将获取到的数据进行清洗、整理,形成一个比较容易阅读的结构,然后再把整理后的数据打印出来

df=pd.DataFrame(columns=['国家和地区','所属洲','日期','今日新增病例','确诊人数','疑似病例','死亡病例','治愈病例'])
for i in range(len(content['data'])):
df.loc[i+1]=[content['data'][i]['name'],
content['data'][i]['continent'],
content['data'][i]['date'],
content['data'][i]['confirmAdd'],
content['data'][i]['confirm'],
content['data'][i]['suspect'],
content['data'][i]['dead'],
content['data'][i]['heal']]

print(df)

这就能够输出一个比较容易阅读的数据结果,当然我们也可以通过其他代码将数据结果写到excel里面

发表评论

邮箱地址不会被公开。 必填项已用*标注