HTML(Hypertext Markup Language)是一种用于创建网页的标记语言,由一系列的标签组成。标签使用尖括号(< 和 >)包围,并且通常成对出现,一个是开始标签,一个是结束标签。
HTML文档的基本结构如下:
<!DOCTYPE html>
<html>
<head>
<title>页面标题</title>
</head>
<body>
页面内容...
</body>
</html>
<!DOCTYPE html>:声明文档类型为HTML5。
<html>:表示HTML文档的根元素。
<head>:该元素用于定义文档的头部信息,包括页面标题、引入外部样式表和脚本等。
<title>:用于定义页面的标题,会显示在浏览器的标题栏或标签页中。
<body>:HTML文档的主体内容。
在<body>元素中,可以使用不同的标签来组织和呈现网页的内容。一些常见的HTML标签及其作用如下:
<h1>到<h6>:定义标题,从大到小表示不同级别的标题。
<p>:定义段落。
<a>:定义超链接,通常用于跳转到其他页面或锚点位置。
<img>:插入图像,指定图片的URL、宽度和高度等属性。
<ul>和<ol>:定义无序列表和有序列表。
<li>:定义列表项。
<div>:用于将文档分割为独立的区块,可用于布局和样式分组。
<span>:用于在行内文本中应用样式或标记特殊内容。
此外,还有一些特殊的标签和属性用于添加特定功能或样式:
<header>、<nav>、<main>、<footer>等:用于定义网页的不同部分,方便搜索引擎和辅助技术的理解。
<table>、<tr>、<td>等:用于创建表格。
<form>、<input>、<button>等:用于创建表单,接收用户输入。
<style>:用于定义内部样式表。
<script>:用于引入JavaScript代码。
id和class属性:用于标识和选择具有相同样式或功能的元素。
通过使用HTML标签和属性,我们可以构建出具有结构化和语义化的网页内容。爬虫就是利用这些HTML标签和内容来解析和提取所需的数据。
本文由 mdnice 多平台发布