还有在线网页版,随点随用
原标题:微软开源Markdown工具爆了:支持Office文档,可接多模态LLM直出报告
文章来源:量子位
内容字数:12154字
微软开源文件格式转换工具MarkItDown:助力大模型应用
微软官方开源了一款强大的文件格式转换工具MarkItDown,它能够将多种文件格式(包括Word、PowerPoint、Excel、PDF、图像、音频等)转换为对大模型更友好的Markdown格式,目前GitHub收藏数已超过3万。
1. MarkItDown 的主要功能和优势
MarkItDown 支持多种文件格式转换,包括PDF、PowerPoint、Word、Excel、图像(含OCR和EXIF元数据)、音频(含EXIF元数据和转录)、HTML以及其他基于文本格式(CSV、JSON、XML)和压缩包。它提供命令行、Python API和Docker三种使用方式,甚至还有热心网友开发的在线网页应用。此外,MarkItDown的一大亮点是能够集成多模态LLM,例如GPT-4o,可以直接对图片、音频文件进行更高级的处理,例如快速生成商业报告,极大地方便了开发者上传训练数据和微调LLM应用。
2. MarkItDown 与 Docling 的性能对比
文章通过一个案例研究,将MarkItDown与IBM的Markdown转换库Docling进行了性能对比。两者都从一份美林证券的报告中提取经济预测数据。虽然Docling生成的Markdown更易读,但使用LLM从MarkItDown和Docling生成的文本中提取经济预测数据时,两者结果完全相同,准确地匹配了文档中的真实值。然而,在提取资产类别权重方面,Docling的准确率(93.33%)远高于MarkItDown(53.33%)。这表明,尽管MarkItDown的输出可读性较差,但在某些情况下,它依然能够提供足够的信息供LLM准确提取数据。
3. Docling 的表格提取能力
Docling 拥有强大的表格提取功能,能够从文档中系统地提取所有表格,并将其转换为pandas DataFrame,方便后续数据分析。文章展示了Docling成功从案例文档中提取7个表格。
4. MarkItDown 的多模态LLM集成能力
MarkItDown 可以集成多模态LLM,从图像中提取信息并进行分析和描述。文章展示了MarkItDown对报告图像的描述,虽然总体上比较准确,但也存在一些细节上的不准确之处,这可能与底层大型语言模型处理图像的能力有关。
5. 其他值得关注的格式转换库
文章最后还提到了其他一些常用的文件格式转换库,例如MinerU和Pandoc,它们也具有较高的收藏数和广泛的应用。
总而言之,MarkItDown 是一款功能强大的文件格式转换工具,其多模态LLM集成能力是其一大优势。虽然在某些特定任务上,其性能可能不如Docling,但它仍然为开发者提供了便捷高效的工具,用于处理各种文件格式并将其转换为适合大模型处理的数据。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破