如此“爬虫”?代码全省了

   日期:2024-12-28    作者:7feen 移动:http://oml01z.riyuangf.com/mobile/quote/78562.html

大家好,我是章北海

Jina AI 开源了 RAG 数据处理中的关键组件:“网页数据爬取” ——Reader,目前 3300+ Star⭐️

项目地址:https://github.com/jina-ai/reader

Jina AI Reader 特征:

  1. 免费使用

  2. 开源

  3. 延迟大概 2S 内,复杂的内容可能需要更多时间

  4. 提供 stream 模式,方便缓解复杂内容等待

  5. 不支持多语

  6. 能够处理 PDF 如 arXiv,但是不是一个通用的 PDF 抽取器

  7. 未来会支持处理图片或视频总结

  8. 支持在线网页

  9. 5 分钟之内上传的内容会缓存

说它是爬取其实有点“过”了,因为这个工具主要服务于将任何 url 转化为 LLM 友好的格式(比如 markdown),然后可以再针对这些内容集成不同的模型。

它可以免费使用,提供 Stream 模式可流式读内容(简单内容2s内可获取)

也可以访问 https://jina.ai/reader/,尝试在线 Demo。

填入链接,点击 FETCH CONTENT 即可获取到内容,甚至提供了基于获取的内容直接提问,结合 Jina AI 的 Embedding 召回 + LLM 组合输出。

Jina AI Reader 原理是通过 puppeteer 抓取网页内容,然后解析再保存成 markdown,这样的方法对于抓取静态的网页内容还可以,如果抓取更复杂的页面就无能为力,还是需要更专业的爬虫解析工具。

其实抓取url,将正文转换为良好的markdown格式的工具还有很多,比如:

  • https://markdowndown.vercel.app

  • web-scraper(open source): https://github.com/zzzgydi/webscraper

  • code-html-to-markdown: https://github.com/siviltaram/code-html-to-markdown (偏向于更好地处理代码块)


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号