有没有用于 PHP 的 PDF 解析器?[已关闭]
嗨,我知道几个用于php的PDF生成器(fpdf,dompdf等)我想知道的是关于解析器的。
由于我无法控制的原因,我需要的某些信息仅在pdf内的表中,我需要提取该表并将其转换为数组。
有什么建议吗?
嗨,我知道几个用于php的PDF生成器(fpdf,dompdf等)我想知道的是关于解析器的。
由于我无法控制的原因,我需要的某些信息仅在pdf内的表中,我需要提取该表并将其转换为数组。
有什么建议吗?
我以前写过一个(为了类似的需求),我可以这样说:玩得开心。这是一项相当复杂的任务。PDF规范很大且笨拙。有几种将文本存储在其中的方法。关键是每个PDF生成器在工作方式上都是不同的。因此,虽然像TFPDF或DOMPDF这样的东西创建了非常容易阅读的PDF(从机器的角度来看),但Acrobat制作了一些非常地狱般的文档。
原因是它如何编写文本。大多数基于DOM的渲染器-我使用过-将整行编写为一个字符串,并将其放置一次(这真的很容易阅读)。Acrobat试图通过一次只写一个或几个字符,并独立定位它们来提高效率(确实如此)。虽然这确实简化了渲染,但它使阅读变得更加困难。
这里的好处是,PDF格式本身非常简单。您有遵循常规语法的“对象”。然后,您可以将它们链接在一起以生成内容。该规范在描述文件格式方面做得很好。但现实世界的阅读需要一点脑力......
一些有用的建议,如果你要自己写,我必须以艰难的方式学习:
65
A
strlen
mb_strlen($string, '8bit')
否则,祝你好运...
我使用PDFBox(http://pdfbox.apache.org/)。该软件是基于java的,并且独立于平台。它工作快速可靠。您可以通过exec或shell执行或通过PHP / Java-Bridge(http://php-java-bridge.sourceforge.net/)