如此“爬虫”？代码全省了

大家好，我是章北海

Jina AI 开源了 RAG 数据处理中的关键组件：“网页数据爬取” ——Reader，目前 3300+ Star⭐️

项目地址：https://github.com/jina-ai/reader

Jina AI Reader 特征：

说它是爬取其实有点“过”了，因为这个工具主要服务于将任何 url 转化为 LLM 友好的格式（比如 markdown），然后可以再针对这些内容集成不同的模型。

它可以免费使用，提供 Stream 模式可流式读内容（简单内容2s内可获取）

也可以访问 https://jina.ai/reader/，尝试在线 Demo。

填入链接，点击 FETCH CONTENT 即可获取到内容，甚至提供了基于获取的内容直接提问，结合 Jina AI 的 Embedding 召回 + LLM 组合输出。

Jina AI Reader 原理是通过 puppeteer 抓取网页内容，然后解析再保存成 markdown，这样的方法对于抓取静态的网页内容还可以，如果抓取更复杂的页面就无能为力，还是需要更专业的爬虫解析工具。

其实抓取url，将正文转换为良好的markdown格式的工具还有很多，比如：

https://markdowndown.vercel.app
web-scraper(open source): https://github.com/zzzgydi/webscraper
code-html-to-markdown: https://github.com/siviltaram/code-html-to-markdown （偏向于更好地处理代码块）

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行