FireCrawl是一款开源的AI爬虫工具,专门用于Web数据提取,并将其转换为Markdown格式或其他结构化数据。FireCrawl特别适合处理使用JavaScript动态生成的网站,能够自动抓取网站及其所有可访问的子页面内容,并将其转换为适合大语言模型训练的数据格式。
主要功能
- 强大的抓取能力:FireCrawl能够抓取任何网站的内容,无论是静态页面还是复杂的动态网页1。
- 智能的爬取状态管理:提供分页、流式传输等功能,使得大规模网页抓取更加高效。此外,它还具备清晰的错误提示功能,方便问题排查。
- 多样的输出格式:支持将抓取的内容转换为Markdown格式,还可以输出为结构化数据(如JSON)。
- 增强Markdown解析:优化Markdown解析逻辑,输出更干净、更高质量的文本。
- 全面的SDK支持:提供丰富的SDK,支持多种编程语言(如Go、Rust等),并全面兼容v1 API1。
- 快速收集相关链接:新增/map端点,可以快速收集网页中的相关链接
用法:
CURL
curl -X POST 'https://api.firecrawl.dev/v1/scrape' \-H 'Authorization: Bearer fc-YOUR_API_KEY' \-H 'Content-Type: application/json' \-d $'{"url": "firecrawl.dev"}'