看动漫的小伙伴应该知道最近出了一部神漫《雾山五行》:
1、极具特色的水墨画风和超燃的打斗场面广受好评
2、首集播出不到 24 小时登顶 B 站热搜第一,豆瓣开分 9.5,
火爆程度可见一斑,就打斗场面而言,说是最炫动漫也不为过,当然唯一有一点不足之处就是集数有点少,只有 3 集。
下面放几张动图,一起欣赏一下。
看过动图之后,是不是觉得我所说的最炫动漫,并非虚言,接下来我们爬取一些评论,了解一下大家对这部动漫的看法,这里我们选取 B 站来爬取数据。
我们先来爬取 B 站弹幕数据,动漫链接为:https://www.bilibili.com/bangumi/play/ep331423,弹幕链接为:http://comment.bilibili.com/186803402.xml,爬取代码如下:
import jieba
import pandas as pd
import requests
from PIL import Image
from bs4 import BeautifulSoup
from wordcloud import WordCloudurl = "http://comment.bilibili.com/218796492.xml"
req = requests.get(url)
html = req.content
html_doc = str(html, "utf-8") # 修改成utf-8
print(html_doc)
# 解析
soup = BeautifulSoup(html_doc, "html.parser")
results = soup.find_all('d')
contents = [x.text for x in results]
# 保存结果
dic = {"contents": contents}
df = pd.DataFrame(dic)
df["contents"].to_csv("bili.csv", encoding="utf-8", index=False)def jieba_():# 打开评论数据文件content = open("bili.csv", "rb").read()# jieba 分词word_list = jieba.cut(content)words = []# 过滤掉的词# 需新建文本stopwordsstopwords = open("stopwords.txt", "r", encoding="utf-8").read().split("\n")[:-1]for word in word_list:if word not in stopwords:words.append(word)global word_cloud# 用逗号隔开词语word_cloud = ','.join(words)def cloud():# 打开词云背景图cloud_mask = pd.np.array(Image.open("bg.png"))# 定义词云的一些属性wc = WordCloud(# 背景图分割颜色为白色background_color='white',# 背景图样mask=cloud_mask,# 显示最大词数max_words=500,# 显示中文font_path='./fonts/simhei.ttf',# 最大尺寸max_font_size=60,repeat=True)global word_cloud# 词云函数x = wc.generate(word_cloud)# 生成词云图片image = x.to_image()# 展示词云图片image.show()# 保存词云图片wc.to_file('cloud.png')jieba_()
cloud()
效果如下:
素材及来源:https://www.cnblogs.com/ityard/p/13435685.html