Day 02 第二天课时总结

一 requests请求库爬取豆瓣电影信息

- 请求url

https://movie.douban.com/top250

- 请求方式

GET

- 请求头

user-agent

import requests
import re
def get_page(url):
    response = requests.get(url)
    return  response
def parse_index(html):
    movie_list = re.findall('<div class="item">,*?<em class="">(.*?)</em>.*?<a href="(.*?)">'
                            '.*?<span class="title">(.*?)</span>.*?导演：(.*?)主演：(.*?)<br>(.*?)</p>'
                            '.*?<span class="rating_num",*?>(.*?)</span>.*?<span>(.*?)人评价</span>'
                            '.*?<span class="inq">(.*?)</span>',html,re.S)
    return movie_list
def save_data(movie):
    top, m_url, name, daoyan, actor, year_type,\
    point, commit, desc = movie
    year_type = year_type.strip('\n')
    data=f'''
               ==============欢迎尊敬的官人观赏===============
                             电影排名：{top}
                             电影url：{m_url}
                             电影名称：{name}
                             电影导演：{daoyan}
                             电影主演：{actor}
                             年份类型：{year_type}
                             电影评分：{point}
                             电影评价：{commit}
                             电影简介：{desc}
               ================请官人下次再来哟================
               \n
               \b
    '''
    print(data)
    with open('douban_top250.text','a',encoding='utf-8') as f:
        f.write(data)
    print(f'电影：{name} 写入成功。。。')
if __name__ == '__main__':
    num=0
    for line in range(10):
        url = f'htt=://movie.douban.com/top250?start={num}&filter='
        num+=25
        print(url)
        index_res = get_page(url)
        movie_list = parse_index(index_res.text)
        for movie in movie_list:
            save_data(movie)