各大网站提交入口/头条收录提交入口

各大网站提交入口,头条收录提交入口,哪家公司做网站开发做得比较好,网站建设一般用到的语言1. 再论抽取方法 在前一期实验中,对gne组件进行分析和完善,对三种时间抽取的方法进行了实验对比。 在对抽取结果进行个例分析的过程中,我发现此前实验存在几个问题: 抽取的1000篇新闻存在一定的重复,经过ID去重大约减…

1. 再论抽取方法

在前一期实验中,对gne组件进行分析和完善,对三种时间抽取的方法进行了实验对比。
在对抽取结果进行个例分析的过程中,我发现此前实验存在几个问题:

  • 抽取的1000篇新闻存在一定的重复,经过ID去重大约减少了36篇。尽管重复新闻的HTML内容并不一定完全一样,但考虑到采样合理性,在新的实验中,加入基于ID的简单去重策略。去重这个问题比较复杂,后续单开一篇来讨论。
  • 基于文本的正则匹配抽取,其基于//text(),会对整个HTML下面的文本段落段落进行匹配,其中包括<style>(CSS样式)和<script>(JS脚本)的内容,尤其是<script>可能与JSON-LD重复,且会匹配JS脚本中的非发布日期。在新的改进中,首先移除HTML中的全部<style><script>标签,然后分别对<head><body>进行匹配,即规则分为 //head//text()//body//text()两种。理论上来说,<head>中如果出现日期,大概率就是<meta>JSON-LD中的日期,其他<head>标签中出现的日期即便有也不能采信。在实验中我的确发现了一例,在<title>中出现了日期,虽然是对的,但是不如正文中的时间精确。
  • 除了已经考虑的<meta>JSON-LD两种被认为较为可靠的方式外,还有其他较为可靠的方式未考虑,即<time>标签以及带有诸如date、time样式的<span><div>标签。

2. 时间抽取结果统计

基于新采样的964篇(去重后)新闻HTML实验了多种方法,抽取结果如下。
在这里插入图片描述
通过将上述方法进行组合,按照meta|JSON-LD|time|other|body+re|head+re顺序进行提取,可获得888条,召回率为92.1%;如果按照meta|JSON-LD|time|other|text+re顺序进行提取,可获得923条,召回率为95.7%。排除其中一部分抽取结果可能错误或者格式无效问题。

3. 案例分析

为了尽量提高抽取的准确率,对抽取结果进行人工走查分析。

3.1.抽取结果分析(recalled case analysis)

对抽取的888条进行人工走查,判断是否准确。网页新闻发布时间的准确率判断有两个标准:(1)必须是合法的日期/时间/日期时间的格式。可以首先通过一组较为严格的正则表达式进行校验,对于不匹配的再进行人工核查。(2)是否的确为该网页所表达的新闻发布时间,也就是说没有误抽。

3.1.1.格式正确性分析

经自动检查和人工核查,在888条结果中,有14条抽取错误,详情如下:

1231405504,06:10 PM06:41 PM06:15 PM06:21 PM06:40 PM
1231393829,Posted yesterday at 6:09am
1231401467,06:10 PM06:41 PM06:15 PM06:21 PM06:40 PM
1231373684,06:10 PM06:41 PM06:15 PM06:21 PM06:40 PM
1231413941,5 hours ago5 hours ago5 hours ago1 day ago21 hours ago
1231423363,Published
1231429109,Posted yesterday at 8:29am
1231423418,Published
1231442966,15:4515:1315:0614:3513:4513:2413:0912:5512:3512:0411:3611:2211:1217:0016:4516:3016:0015:3515:0014:3014:0613:4513:0512:3111:5311:4011:3611:1317:0916:33
1231413993,12 Mar 2025 5:56 pm AEDT12 Mar 2025 5:48 pm AEDT12 Mar 2025 5:45 pm AEDT12 Mar 2025 5:44 pm AEDT12 Mar 2025 5:44 pm AEDT12 Mar 2025 5:34 pm AEDT12 Mar 2025 5:34 pm AEDT12 Mar 2025 5:28 pm AEDT12 Mar 2025 5:14 pm AEDT12 Mar 2025 5:12 pm AEDT12 Mar 2025 5:09 pm AEDT12 Mar 2025 5:09 pm AEDT12 Mar 2025 5:08 pm AEDT12 Mar 2025 5:02 pm AEDT12 Mar 2025 5:02 pm AEDT12 Mar 2025 5:02 pm AEDT12 Mar 2025 4:58 pm AEDT12 Mar 2025 4:54 pm AEDT12 Mar 2025 4:52 pm AEDT12 Mar 2025 4:49 pm AEDT12 Mar 2025 4:48 pm AEDT12 Mar 2025 4:48 pm AEDT12 Mar 2025 4:48 pm AEDT12 Mar 2025 4:48 pm AEDT12 Mar 2025 4:42 pm AEDT12 Mar 2025 4:42 pm AEDT12 Mar 2025 4:40 pm AEDT12 Mar 2025 4:38 pm AEDT
1231404665,12 Mar 2025 4:38 pm AEDT12 Mar 2025 4:22 pm AEDT12 Mar 2025 4:20 pm AEDT12 Mar 2025 4:13 pm AEDT12 Mar 2025 4:12 pm AEDT12 Mar 2025 4:12 pm AEDT12 Mar 2025 4:07 pm AEDT12 Mar 2025 4:07 pm AEDT12 Mar 2025 4:06 pm AEDT12 Mar 2025 4:06 pm AEDT12 Mar 2025 4:06 pm AEDT12 Mar 2025 4:00 pm AEDT12 Mar 2025 3:58 pm AEDT12 Mar 2025 3:52 pm AEDT12 Mar 2025 3:48 pm AEDT12 Mar 2025 3:48 pm AEDT12 Mar 2025 3:46 pm AEDT12 Mar 2025 3:42 pm AEDT12 Mar 2025 3:41 pm AEDT12 Mar 2025 3:40 pm AEDT12 Mar 2025 3:40 pm AEDT12 Mar 2025 3:36 pm AEDT12 Mar 2025 3:36 pm AEDT12 Mar 2025 3:30 pm AEDT12 Mar 2025 3:28 pm AEDT12 Mar 2025 3:24 pm AEDT12 Mar 2025 3:22 pm AEDT12 Mar 2025 3:22 pm AEDT
1231409967,2025-03-112024-11-072024-12-042025-01-192025-03-102025-02-272025-02-262025-02-25
1231295956,03/11/2025 - 09:5403/10/2025 - 09:4403/06/2025 - 10:29
1231402230,12 Mar 2025 8:42 pm AEDT12 Mar 2025 8:42 pm AEDT12 Mar 2025 8:22 pm AEDT12 Mar 2025 8:16 pm AEDT12 Mar 2025 8:14 pm AEDT12 Mar 2025 8:14 pm AEDT12 Mar 2025 8:08 pm AEDT12 Mar 2025 8:02 pm AEDT12 Mar 2025 8:02 pm AEDT12 Mar 2025 7:56 pm AEDT12 Mar 2025 7:46 pm AEDT12 Mar 2025 7:44 pm AEDT12 Mar 2025 7:42 pm AEDT12 Mar 2025 7:40 pm AEDT12 Mar 2025 7:34 pm AEDT12 Mar 2025 7:32 pm AEDT12 Mar 2025 7:28 pm AEDT12 Mar 2025 7:24 pm AEDT12 Mar 2025 7:12 pm AEDT12 Mar 2025 7:12 pm AEDT12 Mar 2025 7:12 pm AEDT12 Mar 2025 7:04 pm AEDT12 Mar 2025 7:02 pm AEDT12 Mar 2025 6:56 pm AEDT12 Mar 2025 6:56 pm AEDT12 Mar 2025 6:54 pm AEDT12 Mar 2025 6:50 pm AEDT12 Mar 2025 6:46 pm AEDT

可以发现其中出现了几条相对时间,如“5 hours ago”、“yesterday at 8:29am”,以及只有时间如“06:10 PM”,这类信息在缺少上下文的情况下无法推断绝对时间,应视为无效抽取。查看网页(https://www.thisdaylive.com/index.php/2025/03/11/police-rescue-two-priests-other-kidnap-victims-in-adamawa-bayelsa/):

<span class="date">5 hours ago</span>

在这里插入图片描述
说明是通过其他类标签匹配。同时这个信息其实并非当前新闻的发布时间,而是页面旁边的新闻列表中的时间。该页面真正的发布时间是在一个隐藏标签中:

<span class="todays-date hide-for-sm-down">Wednesday, 12th March, 2025</span>

标题下面也出现了日期:

<span class="date-container"><i class="fa-light fa-calendar-days"></i> <span class="date">21 hours ago</span></span>

date-container这个样式还在其他标签中出现了。
另外也出现了“Published”,发现是其他类标签抽取出错,HTML片段如下:

<span class="date">Published</span> <span class="entry-date updated" title="6:01 pm">March 11, 2025</span>

然后这个情况处理比较复杂,虽然可以将entry-date updated加入规则中,但是其日期在text()中,时间则是在@title中。
另一个网页中(https://98q.com/local-news-stories/efb6880a8150553e5bf8c87c87c03cac)的情况如下:

<span class="date"> Posted yesterday at 8:29am </span>

除此之外,没有任何其他位置包含时间信息。其他示例包括

<time class="article-intro__date" datetime="2025-03-11" itemprop="datePublished">March 11, 2025</time>
<span class="date updated published-date" itemprop="datePublished" content="2025-03-11T14:36:16+00:00">12 Mar 2025 1:36 am AEDT</span>

从这些个例可以看出,基于其他任意标签的时间戳往往比较随意,因此需要严格限定规则。

3.1.2.语义正确性分析

对874个抽取取正确时间格式(绝对时间)进行抽样检查,看是否为实际的新闻发布时间。
抽样了10个结果,发现9个抽取自<meta>,1个抽取自JSON-LD,语义全部正确。由于这一批数据大体上都在3月11日左右,因此通过筛选出与3月11日相差较大的日期(如3月9日以前),进行人工对比分析。

出现以下情况:

<meta name="articleDate" content="2025-03-11">
<time datetime="2025-03-07T16:00:00-07:00" class="tnt-date asset-date text-muted">Mar 7, 2025</time>
<div class="PromoA-timestamp" data-timestamp="1610379720000" data-date="January 11, 2021 at 10:42 AM EST" data-promo-date="January 11, 2021" data-show-timestamp="true">, January 11, 2021</div></div>

经分析,全部874个抽取结果中,抽取错误仅有2条,说明已有方法较为可靠。

3.2.未抽取网页分析(bad case analysis)

对未抽取出内容的76篇进行人工检查,统计结果如下:
在这里插入图片描述
Missing类进行手工分析,发现情况比较复杂,时间可能出现在标签中,或者JS代码中,如果要采用严格的规则进行抽取,会比较困难,倒不如直接对HTML进行正则匹配,虽然有抽取错误的情况,但也可以忽略不计。

这样看来,gne组件原始代码直接基于 //text() 进行规则匹配是有一定道理的。但是,毕竟是规则匹配,难免存在覆盖不到的情况。如何能够让机器做到跟人一样一眼就可以看到时间并通过其附近的标签、属性或样式等快速判断?这可以成为继续研究的主题。

4.结论

本文讨论了更多新闻网页发布时间的抽取方法,开展了相关实验,并对实验结果进行了案例分析。

分析发现,通过补充完善正则表达式规则,可以进一步提高时间抽取召回率。但由于正文中的时间语义较为复杂,最佳策略仍然是先通过meta标签、JSON-LD元数据、time标签等较为可信的方式抽取。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/74310.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

算法基础——栈

一、栈的概念 栈是⼀种只允许在⼀端进⾏数据插⼊和删除操作的线性表。 进⾏数据插⼊或删除的⼀端称为栈顶&#xff0c;另⼀端称为栈底。不含元素的栈称为空栈。进栈就是往栈中放⼊元素&#xff0c;出栈就是将元素弹出栈顶。 二、栈的模拟实现 1. 创建 本质还是线性表&#…

软考复习-传输介质与编码

传输介质 双绞线 传输距离100一200m&#xff0c;即网线&#xff0c;有多种分类 UTP非屏蔽双绞线 STP屏蔽双绞线 线序标准有两种为&#xff1a; T568A标准&#xff1a;绿白、绿、橙白、蓝、蓝白、橙、棕白、棕 T568B标准&#xff1a;橙白、橙、绿白、蓝、蓝白、绿、棕白、…

【算法】常见排序算法(插入排序、选择排序、交换排序和归并排序)

文章目录 前言一、排序概念及常见排序算法框图1.排序概念2.常见排序算法框图 二、实现比较排序算法1.插入排序1.1 直接插入排序1.2 希尔排序 2.选择排序2.1 直接选择排序2.2 堆排序 3.交换排序3.1 冒泡排序3.2 快速排序3.2.1 hoare版本3.2.2 挖坑法3.2.3 lomuto前后指针 3.3 快…

电动自行车/电动工具锂电池PCM方案--SH367003、SH367004、SH79F329

在消费电子系统中&#xff0c;如手机电池包&#xff0c;笔记本电脑电池包等&#xff0c;带有控制IC、功率MOSFETFE管以及其他电子元件的电路系统称为电池充放电保护板Protection Circuit Module &#xff08;PCM&#xff09;&#xff0c;而对于动力电池的电池管理系统&#xff…

【基于ROS的A*算法实现路径规划】A* | ROS | 路径规划 | Python

### 记录一下使用Python实现ROS平台A*算法路径规划 ### 代码可自取 &#xff1a;Xz/little_projecthttps://gitee.com/Xz_zh/little_project.git 目录 一、思路分析 二、算法实现 三、路径规划实现 一、思路分析 要求使用A*算法实现路径规划&#xff0c;可以将该任务分为三…

2025-03-23 吴恩达机器学习3——多维特征

文章目录 1 多元引入2 矢量化2.1 示例2.2 非矢量化实现2.3 矢量化实现2.4 应用 3 特征缩放3.1 举例3.2 必要性3.3 方法3.3.1 最大最小值缩放&#xff08;Min-Max Scaling&#xff09;3.3.2 均值归一化&#xff08;Mean Normalization&#xff09;3.3.3 Z 分数归一化&#xff08…

正点原子内存管理学习和修改

由于项目需要用到内存管理进行动态申请和释放&#xff0c;今天又重新学习了一下正点原子的内存管理实验&#xff0c;温习了一下内存管理的实质。首先先上正点原子内存管理的源代码&#xff1a; malloc.c文件&#xff1a; #include "./MALLOC/malloc.h"#if !(__ARMC…

【Centos7搭建Zabbix4.x监控HCL模拟网络设备:zabbix-server搭建及监控基础05

兰生幽谷&#xff0c;不为莫服而不芳&#xff1b; 君子行义&#xff0c;不为莫知而止休。 5.zabbix监控HCL模拟网络设备 在保证zabbix-server与HCL网络相通的情况下进行如下操作。 5.1创建主机群 配置-主机群-创建主机群 图 19 取名&#xff0c;添加。 图 20 5.2 创建监控…

趣味极简品牌海报艺术贴纸设计圆润边缘无衬线粗体装饰字体 Chunko Bold - Sans Serif Font

Chunko Bold 是一种功能强大的显示字体&#xff0c;体现了大胆极简主义的原则 – 当代设计的主流趋势。这种自信的字体将粗犷的几何形状与现代的趣味性相结合&#xff0c;具有圆润的边缘和强烈的存在感&#xff0c;与当今的极简主义设计方法完美契合。无论是用于鲜明的构图还是…

2025-03-21 Unity 序列化 —— 自定义2进制序列化

文章目录 前言1 项目结构1.1 整体1.2 代码 2 实现2.1 Processor2.1.1 BaseType2.1.2 CollectionType2.1.3 CustomType 2.2 ByteFormatter2.3 ByteHelper 3 使用 前言 ​ BinaryFormatter 类可以将 C# 类对象快速转换为字节数组数据。 ​ 在网络开发时&#xff0c;不会使用 Bi…

嵌入式项目:利用心知天气获取天气数据实验方案

【实验目的】 1、利用心知天气服务器获取指定位置天气数据 2、将天气数据解析并可视化显示到OLED屏幕 【实验原理】 【实验步骤】 官网注册

LabVIEW FPGA与Windows平台数据滤波处理对比

LabVIEW在FPGA和Windows平台均可实现数据滤波处理&#xff0c;但两者的底层架构、资源限制、实时性及应用场景差异显著。FPGA侧重硬件级并行处理&#xff0c;适用于高实时性场景&#xff1b;Windows依赖软件算法&#xff0c;适合复杂数据处理与可视化。本文结合具体案例&#x…

深度解析 Android Matrix 变换(二):组合变换 pre、post

前言 在上一篇文章中&#xff0c;我们讲解了 Canvas 中单个变换的原理和效果&#xff0c;即缩放、旋转和平移。但是单个旋转仅仅是基础&#xff0c;Canvas 变换最重要的是能够随意组合各种变换以实现想要的效果。在这种情况下&#xff0c;就需要了解如何组合变换&#xff0c;以…

FAQ - VMware vSphere Web 控制台中鼠标控制不了怎么办?

问题描述 在VMware vSphere vCenter Server 的 Web 控制台中新建了一台 Windows Server 2008 R2 虚拟机&#xff0c;但是鼠标进入控制台后&#xff0c;可以看见鼠标光标&#xff0c;但是移动却没有反应。 根因分析 暂无。 解决方案 选中虚拟机>操作>编辑设置>添加新…

关于极端场景下,数据库更新与 MQ 消息一致性保障方案的详细总结

目录 一、核心问题场景 二、RocketMQ 事务消息方案 1. 核心机制 2. 执行流程 3. 关键优势 4. 局限性 三、消息表方案 1. 核心机制 2. 执行流程 3. 关键优势 4. 局限性 四、方案对比与选择 五、实施建议 六、总结 一、核心问题场景 当数据库更新后,若 MQ 消息未…

【redis】主从复制:拓扑结构、原理和psync命令解析

文章目录 拓扑一主一从相关问题 一主多从相关问题 树形主从结构相关问题 主从复制原理复制流程 psync 命令命令解析replicatonidoffset总结 运行流程 拓扑 若干个节点之间按照什么样的方式来进行组织连接 一主一从 都可以读&#xff0c;从节点可以帮主节点分担一部分的压力只…

[RoarCTF 2019]Easy Calc-3.23BUUCTF练习day5(2)

[RoarCTF 2019]Easy Calc-3.23BUUCTF练习day5(2) 解题过程 查看源码 发现calc.php页面&#xff0c;访问一下 分析代码 首先获取$_GET[num]的值并赋给变量$str。然后定义了一个黑名单数组$blacklist&#xff0c;包含了一系列被禁止的字符或转义字符&#xff0c;如空格、制表…

阻塞队列:原理、应用及实现

阻塞队列&#xff1a;原理、应用及实现 什么是阻塞队列以生产消费者模型形象地理解阻塞队列阻塞队列实现生产消费者模型模拟实现阻塞队列实现生产消费者模型 什么是阻塞队列 阻塞队列是一种特殊且实用的队列数据结构&#xff0c;它同样遵循 “先进先出” 的原则。与普通队列不…

【开源宝藏】30天学会CSS - DAY5 第五课 脉冲动画

以下是一个完整的渐进式教程&#xff0c;拆解如何用 HTML CSS 构建“Pulsar”水波脉冲动画。通过阅读&#xff0c;你将理解每个核心属性与关键帧如何配合&#xff0c;让一个小圆不断散发动态波纹&#xff0c;并且文字始终停留在圆心。 第 0 步&#xff1a;项目概览 文件结构示…

2060 裁纸刀

2060 裁纸刀 ⭐️难度&#xff1a;简单 &#x1f31f;考点&#xff1a;2022、规律、思维 &#x1f4d6; &#x1f4da; import java.util.Arrays; import java.util.LinkedList; import java.util.Queue; import java.util.Scanner;public class Main {static int N 100010…