Skip to content
CodingDiary
返回

折腾 Firecrawl:把网页变成 LLM 能吃的格式

编辑页面
导读

想把网页喂给 LLM 做 RAG?curl 一堆 CSS/JS,正文混在里面根本没法用;Playwright 又太重,杀鸡用牛刀。Firecrawl 专为 AI 场景设计:给它 URL,返回干净的 Markdown——JS 渲染、反爬绕过、广告过滤、正文提取它全包了。免费版 500 积分/月,个人学习够用。本文实测抓 AgentScope Java 文档,对比效果明显,附 /scrape、/crawl、/map 三种 API 用法和避坑指南。

写在前面

最近在学 AgentScope Java 框架,想把官方文档喂给 LLM 做辅助教学——遇到问题直接问,比翻文档快。但要先把文档抓下来转成 Markdown,才能塞进 prompt 或向量库。

试了下 curl,返回一堆 CSS/JS 链接、SVG 图标、导航元素,正文混在里面很难提取。Playwright 能搞,但为了抓几十个页面维护无头浏览器,杀鸡用牛刀。

之前听说过 Firecrawl,给 AI 场景做的网页抓取 API,一直没空折腾。这次试了试,效果不错,记录一下。

它能干嘛

你给它 URL,它还你干净的 Markdown。

JS 渲染、反爬绕过、广告过滤、正文提取这些破事它都包了。只想拿内容喂 LLM 的话,省不少事。

注册和配置

firecrawl.dev 注册,Dashboard 里拿 API Key。免费版 500 积分,1 积分抓 1 页,不要钱不绑卡。

拿到 Key 配个环境变量:

# zsh 用户
echo 'export FIRECRAWL_API_KEY="fc-xxx"' >> ~/.zshrc
source ~/.zshrc

基本用法

抓单页

curl -X POST https://api.firecrawl.dev/v1/scrape \
  -H "Authorization: Bearer $FIRECRAWL_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://java.agentscope.io/zh/intro.html", "formats": ["markdown"]}'

返回 JSON 里 data.markdown 就是正文,标题、段落、代码块都在,直接能用。

批量抓站

抓整个文档站用 /crawl

curl -X POST https://api.firecrawl.dev/v1/crawl \
  -H "Authorization: Bearer $FIRECRAWL_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://docs.xxx.com", "limit": 50}'

异步接口,返回任务 ID,过会儿再查结果。limit 控制抓多少页,别一下把积分造完了。

先探探路

不知道一个站有多少页?用 /map 先看看:

curl -X POST https://api.firecrawl.dev/v1/map \
  -H "Authorization: Bearer $FIRECRAWL_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'

返回站点能发现的所有 URL,不消耗积分。我一般先 map,看看哪些页面值得抓,再针对性地 scrape。

实际效果

拿 AgentScope Java 文档页对比:

直接 curl

<!doctype html>
<html class="no-js" lang="en" data-content_root="../">
  <head>
    <meta charset="utf-8" />
    <link rel="stylesheet" type="text/css" href="../_static/styles/furo.css" />
    <!-- 一堆 CSS/JS 链接、SVG 图标、导航元素... -->
  </head>
</html>

用 Firecrawl

# AgentScope Java

**用 Java 构建生产级 AI 智能体**

## 什么是 AgentScope Java?

AgentScope
Java 是一个面向智能体的编程框架,用于构建 LLM 驱动的应用程序。它提供了创建智能体所需的一切:ReAct 推理、工具调用、内存管理、多智能体协作等。

## 核心亮点

### 智能体自主,全程可控

AgentScope 采用 ReAct(推理-行动)范式,使智能体能够自主规划和执行复杂任务...

差距明显。

定价

免费版 500 积分/月,个人学习够了。

量大的话,Hobby 版 $16/月 3000 积分,Standard $83/月 10 万积分。先白嫖试试再说。

几个坑

抓不到内容:有些站反爬凶,试试把 timeout 调大。还不行就只能上 Playwright 了。

积分消耗快:别动不动 crawl 整站,先 map 看结构,挑重要的抓。

格式不理想:个别站 HTML 结构太奇葩,提取出来有点乱,只能自己后处理。

最后

Firecrawl 解决的问题很简单:省得为了抓几个网页去折腾爬虫。搞 RAG、搞 AI Agent 需要喂数据,挺实用。

免费版先玩着,后面想结合 n8n 搞个自动化,定期抓技术博客更新,喂 LLM 做摘要存 Obsidian。折腾出来再写一篇。


相关链接


编辑页面
分享到:

下一篇
解决 MacOS BigSur JD-GUI 打开失败的问题