1、 html
html 不是一种编程语言,而是一种标记语言,是制作网页所必须的,你在浏览器里看到的每一个页面,不论简单还是复杂,都是用html编写的,包括你现在看到的这篇文章。
用html写一个简单的页面,是非常容易的,你也可以,将下面这段内容复制到一个文本文件中,另存为 test.html,然后双击文件,浏览器就会打开它
<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"><title>这是一个例子</title></head><body><div><p>这是一段文字</p></div></body>
</html>
浏览器里,会显示一个简单的页面,内容只有一句话“这是一段文字”,上面的这段内容,就是所谓的网页源码。
2、 如何查看网页源码
以谷歌浏览器为例,在打开的网页上空白区域单击右键,就会出现一个下拉菜单,其中一个菜单便是“显示网页源代码”
点击这个菜单,你就可以查看到网页的源码了。
如果你仔细观察,网页的样子几乎一样,最常见的标签如下
<html> <head> <title> <body> <div> <a>
不管是什么标签,他们都成对的出现,有一个<div>,必有一个</div> 与之相对应,我们想要的数据,就放在这些标签之中。
你想写一个爬虫,首先你得知道,你想要的内容在哪里,他们在哪些标签中,弄清楚这些,你才能写程序去这些标签中提取你想要的内容。