5款可用于LLMs的爬虫工具/方案

5款可用于LLMs的爬虫工具/方案

  1. Crawl4AI
    功能: 提取语义标记的数据块为JSON格式,提供干净的HTML和Markdown文件。
    用途: 适用于RAG(检索增强生成)、微调以及AI聊天机器人的开发。
    特点: 高效数据提取,支持LLM格式,多URL支持,易于集成和Docker容器化。
    GitHub: https://github.com/unclecode/crawl4ai
  2. FireCrawl
    功能: 抓取网站的所有可访问子页面,并转换内容为干净的Markdown格式。
    特点: 适用于JavaScript动态生成的内容网站,提供易用的API。
    GitHub: https://github.com/mendableai/firecrawl
  3. Scrapegraph-ai
    功能: 使用LLM和直接图形逻辑创建网站和本地文档的抓取流程。
    特点: 自动执行数据抓取任务,用户只需指定信息类型。
    GitHub: https://github.com/VinciGit00/Scrapegraph-ai
  4. Markdowner
    功能: 将网站快速转换为Markdown数据。
    特点: 支持自动爬虫、详细模式、JavaScript网站等,易于扩展和自托管。
    GitHub: https://github.com/dhravya/markdowner
  5. Jina Reader
    功能:将任何URL转化为LLM所需的Markdown格式
    特点:可以针对这些内容集成不同的模型,支持API
    GitHub:https://github.com/jina-ai/reader
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/836151.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

c++ 入门2

目录 五. 函数重载 1、参数类型不同 2、参数个数不同 3、参数类型顺序不同 C支持函数重载的原理--名字修饰(name Mangling) 为什么C支持函数重载,而C语言不支持函数重载呢? 六. 引用 6.1 概念 6.2 引用特性 6.3 常引用 6.4 使用场景 …

数据结构之排序(上)

片头 嗨,小伙伴们,大家好!我们今天来学习数据结构之排序(上),今天我们先讲一讲3个排序,分别是直接插入排序、冒泡排序以及希尔排序。 1. 排序的概念及其应用 1.1 排序的概念 排序&#xff1a…

图书馆APP开发解决方案

uni-app框架:使用Vue.js开发跨平台应用的前端框架,编写一套代码,可编译到Android、小程序等平台。 框架支持:springboot/Ssm/thinkphp/django/flask/express均支持 前端开发:vue.js 可选语言:pythonjavanode.jsphp均支持 运行软件…

百度云防护如何开启CC攻击防护

百度云防护的最重要的功能是可以CC攻击防护,针对CC攻击,百度云防护有被动的CC攻击拦截规则,也有主动自定义访问策略拦截。 今天百度云来教大家如何开启百度云防护的CC攻击防御功能。 1.进入防护模板功能-创建模板 2.开启CC攻击防御功能&…

李飞飞首次创业!

B站:啥都会一点的研究生公众号:啥都会一点的研究生 最近AI又有啥进展?一起看看吧~ 中国独角兽企业已达369家,六成以上与AI、芯片等硬科技赛道有关 2024中关村论坛“全球独角兽企业大会”上发布全新《中国独角兽企业发展报告&am…

探索互联网医院系统源码:开发在线药房小程序实战教学

今天,笔者将与大家一同深入探讨互联网医院系统的源码结构,并通过开发在线药房小程序的实战教学,为读者提供一种学习和理解这一领域的途径。 一、互联网医院系统源码解析 1.技术选型 互联网医院系统的开发离不开合适的技术选型,…

类和对象-Python-第二部分

师从黑马程序员 多态 抽象类(接口) #演示抽象类 class AC:def cool_wind(self):"""制冷"""passdef hot_wind(self):"""制热"""def swing_l_r(self):"""左右摆风""…

Cloudflare国内IP地址使用教程

Cloudflare国内IP地址使用教程 加速网站: 首先我们添加一个 A 记录解析,解析 IP 就是我们服务器真实 IP: 然后侧边栏 SSL/TLS - 自定义主机名: 回退源这里填写你刚刚解析的域名,保存后回退源状态为有效再来接下的操作…

第十二篇:数据库系统导论 - 探索数据管理的基石

数据库系统导论 - 探索数据管理的基石 1 引言 数据的力量:揭秘数据库系统的核心 在信息时代,数据无处不在,它们成为了企业和社会运作的基础。我们如何储存、检索、更新和维护这些数据,决定了我们能否从这些数据中获得力量。数据…

网络应用层

叠甲:以下文章主要是依靠我的实际编码学习中总结出来的经验之谈,求逻辑自洽,不能百分百保证正确,有错误、未定义、不合适的内容请尽情指出! 文章目录 1.使用协议和序列化1.1.自定义协议,自定义序列化1.2.自…

【网络】网络基础

目录 一、前言 1.计算机网络背景 2.认识协议 二、网络协议初识 1.OSI七层模型 2.TCP/IP五层(或四层)模型 3.网络传输基本流程 4.数据包封装和分用 5.网络中的地址管理 1.IP地址 2.MAC地址 一、前言 1.计算机网络背景 网络之前,我们所有在电脑上的操作都是…

Spring Boot数据映射利器:MapperStruct vs. BeanUtils.copyProperties 一较高下

Spring Boot数据映射利器:MapperStruct vs. BeanUtils.copyProperties 一较高下 在 Spring Boot 应用程序中,常常需要在不同的 Java 对象之间进行数据拷贝。这种拷贝操作在开发中非常常见,比如将 DTO(Data Transfer Object&#x…

5. 简单说一说uniapp中的语法吧

前言 如果你 知道Vue3并且对Vue3的语法有一定了解,请跳过这一章,由于后续项目主要是基于Vue3TypeScript,因此提前简单概述一些Vue3的基础语法~ 本文的目的是 期望通过对本文的阅读后能对Vue3的每个语法有一个简单的印象,至少要知…

二叉搜索数使用,底层原理及代码实现

1:二叉搜索树的定义 二叉搜索树的底层是一个二叉链表 二叉搜索树又称二叉排序树,它或者是一棵空树 ,或者是具有以下性质的二叉树 : 若它的左子树不为空,则左子树上所有节点的值都小于根节点的值 若它的右子树不为空,则右子树上所…

Redis-配置文件详解

Redis配置文件详解 units单位 配置大小单位,开头定义基本度量单位,只支持bytes,大小写不敏感。 INCLUDES Redis只有一个配置文件,如果多个人进行开发维护,那么就需要多个这样的配置文件,这时候多个配置 文…

docker安装向量数据库milvus

Miluvs Milvus 向量数据库能够帮助用户轻松应对海量非结构化数据(图片 / 视频 / 语音 / 文本)检索。 单节点 Milvus 可以在秒内完成十亿级的向量搜索,分布式架构亦能满足用户的水平扩展需求。 Milvus 向量数据库的应用场景包括:互联网娱乐(图片搜索 / 视频搜索)、新零售…

MATLAB基础—系统环境

1.MATLAB操作界面的组成 (1)MATLAB主窗口(红色) MATLAB主窗口是MATLAB的程序窗口,他除了嵌入一功能窗口外,主要包括功能区(1),快速访问工具栏(2),和当前文件夹工具栏(3)。 在功能区提供了三个选项卡&#…

浅析vue3自定义指令

vue3中可以像下面这样使用自定义指令。 这里我们只是定义了一个vFoucs变量,vue怎么知道这是一个指令呢? 这是因为约定大于配置,vue3中有这样一个约定(截图来自官方文档): 注意这里说的是驼峰命令&#x…

机器学习案例:加州房产价格(一)

参考链接:https://hands1ml.apachecn.org/2/ 假设你是被一家地产公司雇佣的数据科学家,现在需要做一些工作。 公司所给的数据集是StatLib 的加州房产价格数据集。这个数据集是基于 1990 年加州普查的数据。数据已经有点老,但它有许多优点&…

【三十一】springboot+easyExcel实现多文件导出压缩包

互相交流入口地址 整体目录: 【一】springboot整合swagger 【二】springboot整合自定义swagger 【三】springboot整合token 【四】springboot整合mybatis-plus 【五】springboot整合mybatis-plus 【六】springboot整合redis 【七】springboot整合AOP实现日志操作 【…