分享好友 最新动态首页 最新动态分类 切换频道
linux 多个文件内容查找,linux - 如何搜索多个pdf文件的内容?
2024-11-09 19:47

linux - 如何搜索多个pdf文件的内容

linux 多个文件内容查找,linux  - 如何搜索多个pdf文件的内容?

我怎样才能在目录/子目录中搜索PDF文件的内容? 我正在寻找一些命令行工具。 看来grep无法搜索PDF文件。

12个解决方案

181 votes

有pdfgrep,它正如它的名字所暗示的那样。

pdfgrep -R 'a pattern to search recursively from path' /some/path

我用它进行简单搜索,效果很好。

(Debian,Ubuntu和Fedora都有软件包。)

从版本1.3.0开始,pdfgrep支持递归搜索。 自Ubuntu 12.10(Quantal)以来,这个版本在Ubuntu中可用。

Graeme answered 2019-03-18T09:54:16Z

176 votes

您的发行版应提供名为pdftotext的实用程序

find /path -name '*.pdf' -exec sh -c 'pdftotext "{}" - | grep --with-filename --label="{}" --color "your pattern"' ;

“ - ”是将pdftotext输出到stdout而不是文件的必要条件。pdftotext和grep选项将文件名放在grep的输出中。可选的pdfgrep标志很好,告诉grep使用终端上的颜色输出。

(在Ubuntu中,pdftotext由包grep或pdfgrep提供。)

如果要使用pdfgrep不支持的GNU grep的功能,则使用pdftotext和grep的此方法优于pdfgrep。 注意:pdfgrep-1.3.x支持-C选项用于打印上下文行。

sjr answered 2019-03-18T09:53:29Z

23 votes

Recoll是一个出色的全文GUI搜索应用程序,适用于Unix / Linux,支持许多不同的格式,包括PDF。 它甚至可以将查询的确切页码和搜索项传递给文档查看器,从而允许您直接从其GUI跳转到结果。

Recoll还带有可行的命令行界面和Web浏览器界面。

Glutanimate answered 2019-03-18T09:54:48Z

11 votes

我的pdfgrep(1.3.0)的实际版本允许以下内容

pdfgrep -HiR 'pattern' /path

在做pdfgrep --help时

H:打印每个匹配的文件名。

:忽略案件区别。

R:递归搜索目录。

它在我的Ubuntu上运行良好。

arkhi answered 2019-03-18T09:55:49Z

7 votes

我做了这个破坏性的小脚本。 玩得开心。

function pdfsearch()

{

find . -iname '*.pdf' | while read filename

do

#echo -e "033[34;1m// === PDF document:033[33;1m $filename033[0m"

pdftotext -q -enc ASCII7 "$filename" "$filename."; grep -s -H --color=always -i $1 "$filename."

# remove it! rm -f "$filename."

done

}

phil answered 2019-03-18T09:56:18Z

2 votes

我有同样的问题,因此我写了一个脚本,搜索指定文件夹中的所有pdf文件的字符串,并打印与查询字符串匹配的PDF文件。

也许这会对你有所帮助。

您可以在这里下载

Paul Weibert answered 2019-03-18T09:56:58Z

2 votes

如果要使用pdftotext查看文件名,请使用以下命令

find . -name '*.pdf' -exec echo {} ; -exec pdftotext {} - ; | grep "pattern|pdf"

Aleksey Kontsevich answered 2019-03-18T09:57:26Z

2 votes

我喜欢@ sjr的答案,但我更喜欢xargs vs -exec。 我发现xargs更加通用。 例如,使用-P,我们可以在有意义的情况下利用多个CPU。

find . -name '*.pdf' | xargs -P 5 -I % pdftotext % - | grep --with-filename --label="{}" --color "pattern"

Deian answered 2019-03-18T09:57:55Z

1 votes

有一个开源的公共资源grep工具crgrep可以在PDF文件中搜索,也可以搜索其他资源,例如嵌套在档案,数据库表,图像元数据,POM文件依赖项和Web资源中的内容 - 以及这些资源的组合,包括递归搜索。

“文件”选项卡下的完整描述几乎涵盖了该工具支持的内容。

我开发了crgrep作为开源工具。

Craig answered 2019-03-18T09:58:36Z

1 votes

首先将所有pdf文件转换为文本文件

for file in *.pdf;do pdftotext "$file"; done

然后正常使用grep。 这是特别好的,因为当您有多个查询和大量PDF文件时它很快。

Martin Thoma answered 2019-03-18T09:59:09Z

0 votes

您需要一些工具,如pdf2text,首先将您的PDF转换为文本文件,然后在文本内搜索。 (您可能会遗漏一些信息或符号)。

如果您使用的是编程语言,可能会为此目的编写pdf库。 例如 Perl的[http://search.cpan.org/dist/CAM-PDF/]

Nylon Smile answered 2019-03-18T09:59:44Z

-1 votes

尝试在如上所述的简单脚本中使用'acroread'

最新文章
杰奇建站CMS1.7免费版:小说连载网站的构建利器
杰奇建站CMS 1.7是一款针对个人及小型企业的免费内容管理系统(CMS)。它的设计旨在提供易于安装和使用的界面,使用户能够快速构建和维护网站,无需深入的技术知识。本章节将介绍杰奇CMS 1.7的基础功能以及它的特
SEO网站如何更新,提升搜索引擎排名的策略与技巧,优化SEO,提升搜索引擎排名的关键策略和技巧
随着互联网技术的飞速发展和网络营销的广泛应用,SEO网站优化已成为企业提高在线可见度、扩大市场份额的重要手段,在SEO实践中,有些企业和个人会忽视对SEO网站进行定期更新,导致网站收录量降低、搜索引擎排名下降甚至无法在搜索引擎中找
AI Weekly『11月11-17日』:Kimi发布新一代数学推理模型,腾讯推出AI工作台ima!
大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,专注于分享AI全维度知识,包括但不限于AI科普,A
突发!雅虎邮箱在美国多地陷入瘫痪状态
雅虎邮箱在美国各地瘫痪雅虎邮箱在美国各地瘫痪雅虎邮箱在美国各地瘫痪雅虎邮箱在美国全境崩溃雅虎邮箱在美国各地都无法正常使用了雅虎邮箱在美国各地瘫痪雅虎邮箱在美国各地瘫痪
打造专属个性在线空间,个人网站搭建平台推荐指南
个人网站搭建平台推荐,轻松打造个性化在线空间。选择合适的平台,即可轻松创建个性化网站,展现自我风采。告别繁琐,轻松入门,开启个性化网络生活。WordPressTypechoZ-BlogGitHub PagesCoding Pages在互联网飞速发展的今天,个人网站已成
淘宝宝贝的排名为什么低?其实有16个因素导致
一个店铺想要获得更多的展现和曝光的机会,那么我们就要考虑到多维度加权,就要全面考虑到影响的各个因子,并最大程度的分析各个影响因子的权重,由此才能够有针对性的加强。以下列举了16类影响宝贝权重的影响因素:1、自然搜索成交:自然
谷歌SEO优化:哪些平台适合做?
随着互联网技术的不断发展,如何在谷歌等搜索引擎上做好搜索引擎优化(SEO)已经成为当今网络营销中的重要一环。SEO的实现需要选择合适的平台进行推广和营销,那么哪些平台适合做呢?下面是一些值得你尝试的平台。Google My Business这是用
指定api路径_苹果cms如何设置api?
①接口开关:开启②是否收费:根据自己需求设置收费与否③列表每页显示数量:建议默认20④图片域名:显示图片的完整访问路径所需要,以http:开头,/结尾,不包含upload目录" (如图中方式填
谷歌浏览器(Google Chrome) 内核版v131.0.6778.205
谷歌浏览器免费版是一款安全,稳定和快速的通用浏览器。谷歌浏览器免费版的设计思想基于简单、高速、稳定、安全等理念,并采用Google独家开发出的V8引擎以提升解译JavaScript的效率,而且设计了“沙盒”、“黑名单”、“无痕浏览”等功能来
苹果cms开启微信QQ防红防封功能
声明:除特殊声明外本站文档均由作者原创,转载请注明出处,原文地址:https://www.mytheme.cn/article/177.html最**果cms更新频繁,功能不断更新叠加。今天来普及下苹果v10 更新增加的新功能“微信QQ防红防封跳转提示”开启使用教程。相信
相关文章
推荐文章
发表评论
0评