macOS 上使用 pdftohtml
在 macOS 上使用 pdftohtml 有几种方法:
方法一:通过 Homebrew 安装 poppler
pdftohtml 是 poppler 工具集的一部分,可以通过 Homebrew 安装:
-
首先安装 Homebrew(如果尚未安装):
1/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
-
安装 poppler:
1brew install poppler -
安装完成后,可以使用 pdftohtml 命令:
1pdftohtml input.pdf output.html
方法二:通过 MacPorts 安装
如果你使用 MacPorts:
1 |
port install poppler |
常用命令选项
1 |
pdftohtml [options] <PDF-file> [<html-file> <xml-file>] |
常用选项:
-
-c:生成复杂输出(保留更多格式)
-
-s:生成单一大 HTML 文件
-
-i:忽略图像
-
-hidden:显示隐藏文本
-
-zoom:缩放因子(如 1.5)
-
-f:从第几页开始
-
-l:到第几页结束
示例:
1 |
pdftohtml -c -s mydocument.pdf output |
注意事项
-
通过 Homebrew 安装后,命令可能与 Linux 版本略有不同
-
如果遇到权限问题,可能需要使用 sudo
-
输出文件会生成多个文件(HTML、图像等),除非使用 -s 选项