如何使用JavaScript在浏览器中逐步合并PDF文件

几乎每个开发者都需要掌握如何处理PDF文件。

有时你需要合并报告或发票，或者简单地将多份文档整合成一个整齐的文件。

大多数用于实现这一功能的工具要么需要安装软件，要么需要将文件上传到服务器，而这些过程往往速度较慢，也不总是最理想的选择——尤其是当处理私人文件时。

但如果能够在浏览器中直接合并PDF文件，而无需任何后端支持呢？

这就是我们在这个教程中要实现的内容。

学习完本教程后，你将掌握一个功能完备的基于浏览器的PDF文件合并工具。该工具允许用户上传文件、预览文件、通过拖放操作重新排列文档顺序、选择特定页面，并立即下载最终合并后的PDF文件。

基于浏览器的PDF文件合并工具，支持拖放上传

浏览器中PDF文件合并的原理
项目设置
我们使用了哪些技术库？
创建上传界面
生成PDF预览图
通过拖放重新排列文件顺序
对PDF文件进行排序与重新排列（重要提示）
使用JavaScript合并PDF文件
提升用户体验
演示：PDF文件合并的具体流程
实际使用中的重要注意事项
常见错误及避免方法
总结

浏览器中PDF文件合并的原理

从宏观角度来看，合并PDF文件就是加载多个PDF文件，从中提取相应页面，然后将这些页面合并成一个完整的文档。

传统上，这一过程是在服务器上完成的：用户先将文件上传到服务器，服务器进行处理后再将结果返回给用户。

但现代的JavaScript技术库使得这一切都可以在浏览器中直接完成。整个处理过程都在用户的设备上本地进行，无需将文件发送到任何外部服务器。

这种做法具有很多实际优势：首先，由于不需要上传文件，因此处理速度更快；其次，文件始终保留在用户的设备上，从而更好地保护了用户隐私；最后，从开发的角度来看，完全不需要依赖后端服务来进行处理。

项目设置

我们会让这个项目保持简单性。

你只需要以下这些：

一个HTML文件
JavaScript
一些库文件

不需要后端支持。

我们使用哪些库？

我们会使用两个重要的库：

<script src="https://unpkg.com/pdf-lib@1.17.1/dist/pdf-lib.min.js"></script>
<script src="https://cdnjs.cloudflare.com/ajax/libs/pdf.js/2.16.105/pdf.min.js"></script>

我们会使用pdf-lib来合并和修改PDF文件
我们会使用pdf.js在浏览器中显示PDF文件的预览效果

这种组合非常强大，而且在实际项目中也被广泛使用。

创建上传界面

首先从一个简单的拖放区域开始：

<div id="upload-area">
  <input type="file" id="file-input" multiple accept="application/pdf">
</div>

用户可以选择拖动文件或点击来选择文件。

一旦选定了文件，我们就会使用以下方法读取这些文件：

const arrayBuffer = await file.arrayBuffer();

这样我们就可以将这些文件传递给我们的PDF处理库了。

显示PDF预览

为了提高用户体验，我们会为每个上传的PDF文件显示预览效果。

使用pdf.js，我们可以这样来渲染页面：

const pdf = await pdfjsLib.getDocument(arrayBuffer).promise;
const page = await pdf.getPage(1);

const viewport = page.getViewport({ scale: 1.5 });
canvas.height = viewport.height;
canvas.width = viewport.width;

page.render({
  canvasContext: context,
  viewport: viewport
});

这样用户在合并文件之前就能看到预览效果。

通过拖放重新排序文件

在合并PDF文件时，文件的顺序非常重要。

我们不会强迫用户按特定顺序上传文件，而是允许他们重新调整文件的顺序。

我们可以使用像Sortable.js这样的库来实现这个功能：

new Sortable(document.getElementById('pdf-grid'), {
  animation: 150
});

这样就可以通过拖放来排序文件，并且能够立即看到排序后的效果。

对PDF文件进行排序和重新排序（非常重要）

这就是这个工具在现实使用中变得非常实用的地方。

它不允许用户按固定顺序上传文件，而是让用户可以在合并之前自由调整文件的顺序。

用户可以手动拖放文件来调整顺序，也可以使用内置的排序选项，比如按照字母顺序或文件大小来排序。这样就可以轻松地快速整理多个文档，而无需重新上传它们。

这种灵活性确保了最终合并后的文档能够按照用户所需的精确顺序排列。在现实应用中，当需要将报告、发票或其他顺序性至关重要的文件合并在一起时，这一特性尤为实用。

以下是一个简单的示例，展示了如何对上传的文件进行排序：

function sortFiles(files, type) {
  return files.sort((a, b) => {
    if (type === "name-asc") {
      return a.name.localeCompare(b.name);
    }

    if (type === "name-desc") {
      return b.name.localeCompare(a.name);
    }

    if (type === "size-asc") {
      return a.size - b.size;
    }

    if (type === "size-desc") {
      return b.size - a.size;
    }

    return 0;
  });
}

这种方式能够让我们精确地控制哪些文件会被合并在一起。

使用JavaScript合并PDF文件

现在来看看核心逻辑。我们将使用pdf-lib来合并这些PDF文件的页面：

const { PDFDocument } = PDFLib;

const mergedPdf = await PDFDocument.create();

for (const file of files) {
  const pdf = await PDFDocument.load(file.arrayBuffer);
  const pages = await mergedPdf.copyPages(pdf, selectedPages);

  pages.forEach(page => mergedPdf.addPage(page));
}

const pdfBytes = await mergedPdf.save();

最后，我们会生成一个可供下载的文件：

const blob = new Blob([pdfBytes], { type: 'application/pdf' });

提升用户体验

一个简单的合并工具虽然能够完成基本功能，但一个优秀的工具使用起来才会更加流畅。

一些细微的改进就能带来显著的差异。

例如：

在合并之前显示文件预览
允许用户删除不需要的文件
提供页面导航功能
即时反馈处理结果

这些细节能让一个基础的功能真正变成一款实用的产品。

演示：PDF文件合并的具体流程

以下是整个操作过程在实际中的表现：

步骤1：上传PDF文件

PDF合并工具界面，包含可拖放的文件上传区域及选择文件按钮

用户可以将PDF文件拖放到上传区域，或者手动选择文件进行上传。

步骤2：预览文件

上传的PDF文件预览界面，会显示文档缩略图及文件详情

每个上传的文件都会显示预览图以及其详细信息（如文件名称、大小、页数等），这样用户就可以在合并之前先查看文件内容。

步骤3：重新排序文件

PDF排序选项界面，显示手动排序以及按名称或文件大小进行排序

用户可以通过拖放操作、排序选项或手动方式来调整PDF文件的顺序，这样就能确保最终合并而成的文档能够按照正确的顺序排列。

步骤4：合并PDF文件

用于将多个PDF文件合并为单个文档的按钮

当所有文件都安排妥当后，用户就可以点击合并按钮，将所有选中的PDF文件合并成一个文件。

步骤5：下载最终的PDF文件

合并后的PDF文件预览界面，其中包含文件详情及下载按钮

合并后的PDF文件会立即在浏览器中生成，用户可以对其进行预览、重命名或下载，而无需与服务器进行任何交互。

实际使用中的重要提示

在开发像PDF合并工具这样的软件时，高效处理大型文件是非常重要的。

如果一次性加载多个大型PDF文件，可能会导致浏览器运行速度变慢或占用过多内存。因此，最好分步处理这些文件，而不是一次性全部处理完毕。

例如，可以不是一次性加载所有PDF文件，而是逐一进行处理：

const { PDFDocument } = PDFLib;

const mergedPdf = await PDFDocument.create();

for (const file of files) {
  const arrayBuffer = await file.arrayBuffer();
  const pdf = await PDFDocument.load(arrayBuffer);

  const pages = await mergedPdf.copyPages(pdf, pdf.getPageIndices());

  pages.forEach(page => mergedPdf.addPage(page));
}

这种处理方式能够降低内存占用量，而且在处理大型文件时也能避免浏览器出现卡顿现象。

你还可以通过限制用户一次可以上传的文件大小或文件数量来进一步提升工具的性能。这样，即使在配置较低的设备上，该工具依然能够保持良好的响应速度。

隐私保护也是一个非常重要的方面。由于所有操作都是在浏览器中直接进行的，因此文件永远不会被上传到服务器上。这样一来，敏感文档就会一直保存在用户的设备上。

不过，还是有必要明确向用户说明这一点。在实际开发的工具中，应该清楚地告知用户：所有的处理操作都是在本机完成的，没有任何文件会被存储或传输到外部服务器上。

这种客户端处理方式能够提升性能并增强用户的信任感，尤其是在处理私人或机密文件时更为明显。

需要避免的常见错误

一个常见的错误就是忽略文件验证。如果用户上传了无效文件或填写了空内容，合并操作就会失败。

另一个问题在于忽略了页面范围的处理。如果解析过程出现错误，用户可能会得到意想不到的结果。

此外，依赖固定的布局结构或某些假设也可能会导致不同文件之间的处理效果不一致。因此，对各种类型的PDF文件进行测试是非常重要的。

结论

通过本教程，你学会了如何使用JavaScript构建基于浏览器的PDF合并工具。

更重要的是，你掌握了在浏览器中本地处理文件、生成预览以便提升用户体验、安全地处理用户输入，以及如何在处理PDF文件时管理动态文档结构。

这种处理方式无需后端支持，能够确保整个流程的高效性、隐私性及快速性。

一旦掌握了这一技术思路，你就可以进一步扩展它来开发更高级的工具。例如，利用这些核心理念，你可以实现PDF文件的分割、压缩、编辑等功能。

而这就是事情变得真正有趣的地方所在。

目录