x-cmd pkg | trafilatura - 网络爬虫和搜索引擎优化工具

目录

    • 简介
    • 首次用户
    • 技术特点
    • 竞品和相关作品
    • 进一步阅读

简介

trafilatura 是一个用于从网页上提取文本的命令行工具和 python 包:

  1. 提供网络爬虫、下载、抓取以及提取主要文本、元数据和评论等功能
  2. 可帮助网站导航和从站点地图和提要中提取链接
  3. 无需数据库,输出即可转换为各种常用格式(txt,csv,json,xml,xmltei)
  4. 可用于搜索引擎优化

首次用户

  1. 使用 x env use trafilatura 即可自动下载并使用

    • 在终端运行 eval "$(curl https://get.x-cmd.com)" 即可完成 x 命令安装, 详情参考 x-cmd 官网
  2. x-cmd 提供1分钟教程,其中包含了 trafilatura 命令常用功能的 demo 示例,可以帮你快速上手 trafilatura 。

  3. 使用案例

    trafilatura-1min-cn

    # 安装 trafilatura
    x env use trafilatura# 提取指定网页的主要内容
    trafilatura -u "https://www.x-cmd.com/start"# 使用站点地图抓取 x-cmd 关于 7za 的网站
    trafilatura --sitemap "https://www.x-cmd.com" --list | grep 7za > list.txt# 批量处理 URL 列表,并存储结果到目录中
    trafilatura -i list.txt -o txtfiles# 优化 bing 搜索结果
    trafilatura --links --xml -u "https://www.bing.com/search?q=gitea"
    

技术特点

  1. 稳健高效的提取:
    1. 除了可以提取主要文本之外,还可以提取元数据(标题、作者、日期、网站名称、类别和标签),结构化信息(段落、标题、列表、引号、代码、换行符、行内文本格式)
    2. 从原始 HTML 转换为关键部分,去除由重复出现的元素(页眉和页脚、广告、链接/博客等)组成的噪音
  2. 支持 URL 管理(黑名单、过滤和重复数据删除)
  3. 支持可选附加组件:
    1. 对提取内容进行语言检测
    2. 图形用户界面 (GUI)
    3. 速度优化
  4. 更加高效、准确。从官方给出的评估和替代方案的数据来看,该工具的性能明显优于其他开源解决方案。

竞品和相关作品

  1. goose3:用 Java 编写的文章提取器。
  2. readabilipy:Python 中的简单 HTML 内容提取器。
  3. news-please:是一个开源、易于使用的新闻爬虫,可以从几乎所有新闻网站中提取结构化信息。

进一步阅读

  • trafilatura 源代码 - trafilatura 项目的源代码托管在 GitHub,你可以在这里找到最新版本的 trafilatura 和参与社区贡献。
  • trafilatura 官网 - 提供了非常丰富的使用案例和技术分析文档。
  • 使用 Trafilatura 进行文本抓取 - 该文章介绍了如何使用 trafilatura 快速提取网页问题。

X-CMD 官网

  • x-cmd-pkg

  • x-cmd-1min

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/593344.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【深入浅出Docker原理及实战】「原理实战体系」零基础+全方位带你学习探索Docker容器开发实战指南(Docker-compose使用全解 一)

Docker-compose使用全解 Compose介绍Compose的作用和职能 Compose和Docker兼容性安装docker-compose添加可执行权限 Docker Compose常用配置imagebuildcontext上下文指定镜像名args构建环境变量 commanddepends_onports特殊映射关系 volumesenvironment Docker Compose命令详解…

关于简单的数据可视化

1. 安装数据可视化必要的openpyxl、pandas,matplotlib等软件包 使用清华源,命令如下: pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn pandaspip install -i https://pypi.tuna.tsingh…

ModStartCMS v7.9.0 内容推荐支持,用户授权升级

ModStart 是一个基于 Laravel 模块化极速开发框架。模块市场拥有丰富的功能应用,支持后台一键快速安装,让开发者能快的实现业务功能开发。 系统完全开源,基于 Apache 2.0 开源协议,免费且不限制商业使用。 功能特性 丰富的模块市…

SomeIP/CommonAPI与Franca IDL使用教程(一)

回顾 SomeIP/CommonAPI环境搭建可以看我上一篇博客:Ubuntu环境下SomeIP/CommonAPI环境搭建详细步骤 什么是SomeIP SOME/IP(Service-Oriented Middleware over IP)是一种基于IP网络的通信协议,旨在支持汽车电子系统和嵌入式系统…

WSL 与真实 linux 环境区别有多大?

随着 Windows 系统的不断发展和完善,WSL(Windows Subsystem for Linux)作为 Windows 10 的一个功能,为 Windows 用户提供了一个可以在 Windows 环境下运行 Linux 二进制可执行文件的环境。然而,尽管 WSL 为用户提供了一…

海外SaaS应用加速难题如何破解?

随着云计算和软件即服务(SaaS)的发展,海外SaaS软件展现的优势逐渐体现,越来越多企业开始利用其进行降本增效。但是,海外SaaS软件的使用过程中常有问题出现,下文将介绍这些难题以及如何进行海外SaaS应用加速…

Java项目:107SpringBoot房屋租赁网站

博主主页:Java旅途 简介:分享计算机知识、学习路线、系统源码及教程 文末获取源码 一、项目介绍 房屋租赁网站基于SpringBootMybatis开发,系统分为管理员和普通用户两种角色。 管理员功能如下: 登录修改密码查看用户房屋管理图…

图像的腐蚀与膨胀

图像的腐蚀与膨胀 设集合 B B B的反射为 B ^ \hat{B} B^,其定义如下 B ^ { w ∣ w − b , b ∈ B } \hat{B}\begin{Bmatrix}w|w-b,b\in B\end{Bmatrix} B^{w∣w−b,b∈B​} 设集合 B B B按照点 z ( z 1 , z 2 ) z(z_1,z_2) z(z1​,z2​)平移得到集合 ( B ) z (…

数据结构学习 jz46把数字翻译成字符串

关键词:动态规划 字符串 数组 滚动数组优化 这道题还算简单,调滚动数组废了点时间,dp状态和转移方程比较容易推出。 用时28mins。 题目: 思路: 把ciphertext拆成一个一个数字的方法: 求10的余数得到最…

AI边缘计算智能分析网关V4如何配置周界入侵检测算法

旭帆科技的智能分析网关V4内含近40种智能分析算法,包括人体、车辆、消防、环境卫生、异常检测等等,在消防安全、生产安全、行为检测等场景应用十分广泛,如常见的智慧工地、智慧校园、智慧景区、智慧城管等等,还支持抓拍、记录、告…

一个人去广东怎么找工作

广东这么大,不用怕没有学历活不下去。没有学历想好好活下去,就得卖力气。 广东找工作上 吉鹿力招聘网 打开 吉鹿力招聘网 “注册账号”,然后输入个人基本信息,进行注册(可使用手机号注册,也可以使用邮箱注…

stable diffusion 基础教程-提示词之光的用法

基图 prompt: masterpiece,best quality,1girl,solo,looking at viewer,brown hair,hair between eyes,bangs,very long hair,red eyes,blush,bare shoulders,(white sundress),full body,leaning forward,medium breasts,unbuttoned clothes,Negative prompt: EasyNegativ…

【MPC学习笔记】02:MPC详细简介(Lecture 1_1 Unconstrained MPC)

本笔记来自北航诸兵老师的课程 课程地址:模型预测控制(2022春)lecture 1-1 Unconstrained MPC 接上一篇:【MPC学习笔记】01:MPC简介(Lecture 1_1 Unconstrained MPC) 文章目录 1 详细介绍1.1 状…

用python实现调用海康SDK

海康威视(Hikvision)提供了Python SDK,用于与他们的摄像头和其他设备进行交互。为了使用这些SDK,首先需要在你的系统上安装海康威视的Python库。 下面是如何在Python中使用海康威视的SDK来调用摄像头的方法: python复…

BUUCTF——Reverse——Java逆向解密

1、题目 2、工具 jd-gui:Java反汇编器。 ​python:编写自动化脚本。 3、方法 下载压缩包,解压得到一个.class文件。 ​题目已经说了是java逆向,所以使用jd-gui打开该文件。 代码如下: import java.io.PrintStream; …

大模型笔记 【1】 大模型初探

以下是Andrej Karpathy一小时讲解chatgpt的笔记。 Andrej Karpathy做自动驾驶的人应该比较熟悉,他是李飞飞的学生。在openAI做了一年半的科学家之后,去了特斯拉。在Tesla AI day讲解tesla自动驾驶方案的就是他。 这里我的主要收获是两个 大模型是一个有…

王道考研计算机组成原理——数据的表示和运算

数制转换 任意进制》十进制:位权*位数即可 整数部分补0是补在头部,小数部分补0是补在尾部 一般都是先把十进制》二进制;然后二进制再转换成8/16进制这样子 一种更快的方法->拼凑法:小数部分整数部分都可以这样求 一般都是先…

挑战Python100题(9)

100+ Python challenging programming exercises 9 Question 81 Please write a program to randomly print a integer number between 7 and 15 inclusive. Hints: Use random.randrange() to a random integer in a given range. 请编写一个程序,随机打印一个介于7和15之间…

Single-Image Crowd Counting via Multi-Column Convolutional Neural Network

Single-Image Crowd Counting via Multi-Column Convolutional Neural Network 论文背景人群密度方法过去的发展历史早期方法基于轨迹聚类的方法基于特征回归的方法基于图像的方法 Multi-column CNN用于人群计数基于密度图的人群计数通过几何自适应核生成密度图密度图估计的多列…

【论文+在线运行】AnyText:能准确写汉字的AI绘图工具

源码:https://github.com/tyxsspa/AnyText 阿里在线运行: https://modelscope.cn/studios/damo/studio_anytext/summary 论文:2311.AnyText: Multilingual Visual Text Generation And Editing 一、AnyTexT是什么? 是一个基于扩散模型的&am…