Crawl4AI 是一款开源的 LLM 友好型 Web 爬虫工具,旨在简化异步 Web 爬取和数据提取,专为大型语言模型 (LLM) 和 AI 应用程序设计。它可以作为 Python 包或通过 Docker 安装,提供灵活的使用方式。Crawl4AI 的主要特点包括支持多 URL 并行爬取、提取所有媒体标签、外部和内部链接、元数据等。它支持自定义钩子、用户代理、页面截图、JavaScript 执行,并能生成结构化的输出,适合各种复杂的爬取场景,工具还具备异步架构和隐私保护功能。
在线体验:在 Colab 中打开(https://colab.research.google.com/drive/1REChY6fXQf-EaVYLv0eHEWvzlYxGm0pd?usp=sharing)

官方文档:https://crawl4ai.com/mkdocs/

GitHub:https://github.com/unclecode/crawl4ai
 
 
Back to Top