在浏览器的背后(二) —— HTML语言的语法解析

当你看到这篇文章意味着我辜负了@教主的殷切期望周末木有去约会,以及苏老师@我思故我在北京鼓楼的落井下石成功了……

本文demo powered by 已经结婚的@老赵的不再维护的wind.js

物是人非啊……

 

说回正经事,在上一篇文章中,我们取得了初步成果,毫无意义的字符变成了有意义的token。

接下来我们要把这些简单的词变成DOM树,这个过程我们是使用栈来实现的,任何语言几乎都有栈,为了给大家跑着玩我们还是用JS来实现吧,JS中的栈只要用数组就好了:

function HTMLSyntaticalParser(){var stack = [new HTMLDocument];this.receiveInput = function(token) {//TODO}this.getOutput = function(){return stack[0];}
}

为了构建DOM树,我们需要一个Node类,接下来我们所有的节点都会是这个Node类的实例。在完全符合标准的浏览器中,不一样的HTML节点对应了不同的Node的子类,我们为了简化,就不完整实现这个继承体系了。我们仅仅把Node分为Element和Text(如果是基于类的OOP的话,我们需要抽象工厂来创建对象。)

function Element(){this.childNodes = [];
}
function Text(value){
this.value = value || "";
}

前面我们的token中,以下两个是需要成对匹配的:

  • tag start
  • tag end

于是我们的做法是遇到tag start就入栈,遇到tag end就出栈,并且校验一下是否匹配。

对于Text节点,我们则需要把相邻的Text节点合并起来,我们的做法是当字符token入栈时检查栈顶是否是Text节点,如果是的话就合并Text节点

同样我们来看看直观的解析过程:

<html maaa=a > <head> <title>cool</title> </head> <body> <img src="a" /> </body> </html> parse

当我们的源代码完全遵循xhtml时,这非常简单问题,然而HTML具有很强的容错能力,奥妙在于当tag end跟栈顶的start tag不匹配的时候如何处理。

于是有一个极其复杂的规则来的,幸好w3c又一次很贴心地把全部规则都整理的很好,我们只要翻译成对应的伪代码就好了:

http://www.w3.org/html/wg/drafts/html/master/syntax.html#tree-construction

略微干净的代码可以在这个gist找到:

https://gist.github.com/wintercn/5618683#file-htmlsyntaticalparser-js

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/265949.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

面经——小米面经(2021春招)

摘自&#xff1a;小米面经&#xff08;2021春招&#xff09;——感谢小米、感谢雷总、感谢上官可编程 作者&#xff1a;阿波罗啦啦啦啦 发布时间&#xff1a; 2021-05-01 11:08:41 网址&#xff1a;https://blog.csdn.net/weixin_44933419/article/details/116325554 3月31日投…

使用arm混合汇编计算两个64位的和_混合使用C、C++和汇编语之: C、C++ 和 ARM 汇编语言之间的调用...

12.4C target_blank stylecursor:pointer;color:#D05C38;text-decoration:underline;>C、C和ARM汇编语言之间的调用本节提供一些示例&#xff0c;显示如何从C调用C和汇编语言代码&#xff0c;以及从C和汇编语言调用C代码。其中包括调用约定和数据类型。主要包括下面内容&…

记一次用WPScan辅助渗透WordPress站点

记一次用WPScan辅助渗透WordPress站点 一、什么是WPScan&#xff1f; WPScan 是一个扫描 WordPress 漏洞的黑盒子扫描器&#xff0c;它可以为所有 Web 开发人员扫描 WordPress 漏洞并在他们开发前找到并解决问题。我们还使用了 Nikto &#xff0c;它是一款非常棒的 Web 服务器评…

移植tslib(s3c2440)

解压安装tslib # tar -zxvf tslib-1.4.tar.gz # cd tslib # ./autogen.sh #echo “ac_cv_func_malloc_0 _nonnullyes”>arm-linux.cache # ./configure –hostarm-linux –cache-filearm-linux.cache -prefix/usr/local/tslib ac_cv_func_malloc_0_nonnullyes # make …

什么是Cortex、ARMv8、arm架构、ARM指令集、soc

参考&#xff1a;到底什么是Cortex、ARMv8、arm架构、ARM指令集、soc&#xff1f;一文帮你梳理基础概念【科普】 发布时间&#xff1a; 一口Linux 网址&#xff1a;https://blog.csdn.net/daocaokafei/article/details/109008103 目录前言1. ARM公司2. ARM内核与架构1&#xff…

Windows下Qt5搭建Android开发环境笔记

Windows很大的特点是配置使用几乎都可以图形化进行&#xff0c;和Linux比起来在很多时候配置环境也要方便很多。所以&#xff0c;搭建Qt for Andorid也是十分简单的。需要以下工具&#xff1a;1.最方便的Qt官方包&#xff0c;现在还处于RC阶段&#xff0c;经过测试也是有些小bu…

大学python怎么过_大学生该不该学Python?太纠结了?

首先&#xff0c;在大学期间的学习任务应该围绕自身的专业课程体系来展开&#xff0c;对于计算机相关专业的同学来说&#xff0c;学习Python还是有一定必要的&#xff0c;作为一门全场景编程语言&#xff0c;Python在大数据、人工智能等领域的应用还是比较广泛的&#xff0c;掌…

python中的列表,添加元素,获取元素,删除元素,列表分片,常用操作符

一. 创建列表&#xff0c;分为创建普通列表&#xff0c;混合列表&#xff0c;和空列表。其中混合列表是指string&#xff0c;int&#xff0c; float等都可以写在同一个列表里&#xff0c;空列表是指列表可以为空 二. 在列表添加成员方法 1. append&#xff08;&#xff09…

对于嵌入式交叉编译总结

这几天终于搞定了老师项目里我负责的部分&#xff0c;主要是做一个图像采集的手持端&#xff0c;我选用了JZ2440。 从移植内核、制作文件系统、Qt移植总结下来发现在对于代码的交叉编译必须保证编译平台的一致性。对于s3c2440来说是armv4t&#xff0c;所以当我们编译出来程序必…

Linux下svn搭建配置

Linux下svn搭建配置1、安装svn客户端yum install subversionsvnserve --version &#xff1b;如果成功安装&#xff0c;可以看到输出版本信息2、配置svn mkdir -p /data/svn &#xff1b;创建svn目录svnadmin create /dat…

rstudio 导出结果_RStudio如何完美导出包含中文的图

这篇文章源于我自己使用R及RStudio数据处理时遇到的问题&#xff0c;R非常强大&#xff0c;但是在中文支持方面还是不是很完美&#xff0c;比如遇到你想导出一个含有中文的图&#xff0c;就会遇到问题。比如有这样一个简单的图&#xff1a;data plot(data,xlimc(1,3),ylimc(2,3…

CSS进阶学习

5种主流浏览器及内核 IE trident Chrome webkit/blink Firefox gecko Opera presto 3%-5% Safari webkit css引入三种方式 行间样式 页面级 外部css文件 同步&#xff1a;顺序进行。一件事做完做另一件事。 异步&#xff1a;同时进行。两件不同的事同时做。 CSS权重&#xff…

linux驱动调试--oops信息

在移植dm9000 时被一个错误困扰了很久&#xff0c;当时手里只有printk调试手段&#xff0c;觉得自己应该升级下了&#xff0c;先学习了根据oops信息来调试。 先构造一个错误&#xff0c;insmod后抛出如下信息 我们着重看这几句 PC is at memcpy0x8c/0x29c c0148080 pc : …

浏览器输入网址后发生了什么?

摘自&#xff1a;这是最全的一篇&#xff01;&#xff01;&#xff01;浏览器输入网址后发什么了什么&#xff1f; 作者&#xff1a;程序员cxuan 发布时间&#xff1a; 2021-04-15 11:59:07 网址&#xff1a;https://blog.csdn.net/qq_36894974/article/details/115720479 到现…

python默认参数只被解释一次_深入讲解Python函数中参数的使用及默认参数的陷阱...

C里函数可以设置缺省参数&#xff0c;Java不可以&#xff0c;只能通过重载的方式来实现&#xff0c;python里也可以设置默认参数,最大的好处就是降低函数难度&#xff0c;函数的定义只有一个&#xff0c;并且python是动态语言&#xff0c;在同一名称空间里不能有想多名称的函数…

fancybox去除不受待见的水平滚动条

用fancybox在嵌套某个页面时&#xff0c;有时莫名其妙的会出现的消除不掉的幽灵般水平滚动条&#xff0c;如何去除&#xff1a; github上的解决方案&#xff1a;https://github.com/fancyapps/fancyBox/issues/24 转载于:https://www.cnblogs.com/kinpauln/p/3145796.html

Word Count作业

Word Count作业 一.个人Gitee地址&#xff1a;https://gitee.com/Changyu-Guo 二.项目简介 该项目主要是模拟Linux上面的wc命令&#xff0c;基本要求如下&#xff1a; 命令格式&#xff1a; wc.exe [para] <filename> [para] <filename> ... -o <filename> 功…

iDempiere = OSGi + ADempiere 一款ERPCRMSCM系统、助力中小企业发展

怀揣着为中小企业量身定做一整套开源软件解决方案的梦想开始了一个网站的搭建。http://osssme.org/ iDempiere OSGi ADempiere 一款ERP&CRM&SCM系统、助力中小企业发展 一句话概括iDempiere是一款基于Compiere/ADempiere的​开源企业级ERP&CRM&SCM系统​&…

字符串 hash 唯一数字_【数字课堂】酒妹带你了解“身份认证技术”

身份认证技术是在计算机网络中确认操作者身份的过程而产生的有效解决方法。计算机网络世界中一切信息包括用户的身份信息都是用一组特定的数据来表示的&#xff0c;计算机只能识别用户的数字身份&#xff0c;所有对用户的授权也是针对用户数字身份的授权。如何保证以数字身份进…

内核启动流程—走马观花

汇编阶段&#xff1a; ensure svc mode and irqs disabled 76确保cpu运行与svc模式&#xff0c;中断关闭 get processor id 78获取cpu id r5procinfo r9cpuid invalid processor (r50)? 79 和__proc_info lists 里比较&#xff0c;不能找到id就 r5 0 bl __vet_atags…