gmft官网
gmft是一个用于将PDF中的表格转换为多种格式的工具包。它轻量级、模块化且性能优越。gmft依赖于微软的Table Transformers,这是众多替代方案中性能最好、最可靠的。gmft无需GPU即可运行,具有高吞吐量,并且安装简便,仅需一行代码即可完成安装。它使用PyPDFium2,因其高吞吐量和宽松的许可证而受到青睐。gmft使用的训练模型TATR在多样化的数据集PubTables-1M上训练,具有高可靠性。
gmft是什么?
gmft是一款轻量级、高性能的PDF表格提取工具,它能够将PDF文档中的表格数据快速、高效地转换为多种格式,例如Pandas DataFrame。gmft基于微软的Table Transformers模型,无需GPU即可运行,并具有高吞吐量,即使处理大量PDF文件也能保持高效。它使用PyPDFium2库进行PDF处理,确保了其速度和兼容性。
gmft的主要功能
gmft的主要功能是将PDF表格转换为其他格式,并提供丰富的附加功能,例如:
- 支持多种输出格式,包括Pandas DataFrame等。
- 能够输出表格的文本内容和位置信息。
- 可以输出表格的裁剪图像。
- 支持表格标题的提取。
- 无需OCR,即可处理图像和扫描PDF。
- 高吞吐量,快速处理大量PDF文件。
- 可配置性强,支持自定义模型和提取方法。
如何使用gmft
gmft的使用非常简单,主要步骤如下:
- 安装: 使用命令
pip install gmft
安装gmft。 - 导入模块: 在Python脚本中导入必要的模块,例如
CroppedTable
,TableDetector
,AutoTableFormatter
等。 - 创建文档对象: 使用
PyPDFium2Document
创建PDF文档对象。 - 表格检测: 使用
TableDetector
遍历文档页面,检测表格。 - 表格格式化: 使用
AutoTableFormatter
格式化检测到的表格。 - 数据转换: 将提取的表格数据转换为所需格式,例如Pandas DataFrame。
- 关闭文档: 使用
close()
方法关闭文档对象释放资源。
gmft产品价格
gmft是一个开源工具,完全免费使用。
gmft常见问题
gmft支持哪些类型的PDF文件? gmft支持各种类型的PDF文件,包括图像型PDF和扫描PDF,无需OCR即可进行表格提取。
gmft的性能如何? gmft基于高效的Table Transformers模型和PyPDFium2库,具有高吞吐量和优越的性能,能够快速处理大量PDF文件。
gmft的输出格式有哪些? gmft支持多种输出格式,最常用的就是Pandas DataFrame,方便用户进行后续的数据分析。当然,它也支持输出表格的文本和位置信息以及裁剪图像。
gmft官网入口网址
https://github.com/conjuncts/gmft
OpenI小编发现gmft网站非常受用户欢迎,请访问gmft网址入口试用。
数据统计
数据评估
本站OpenI提供的gmft都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由OpenI实际控制,在2025年 1月 16日 下午7:50收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,OpenI不承担任何责任。