微软发布开源新工具 MarkItDown,轻松将Office 文件转换为 Markdown 格式

Markdown 是一种轻量级的标记语言,旨在提供一种易于阅读和书写的纯文本格式。它的语法简单且一致,使得文本不仅对人类友好,也便于机器解析。正因为其简洁性和可读性,Markdown 在开发者社区中非常流行,并被广泛应用于 GitHub、Jupyter Notebooks 等工具中。

微软发布开源工具MarkItDown

为了进一步推动 Markdown 的应用,微软最近在 GitHub 上发布了一个名为 MarkItDown 的开源 Python 库。MarkItDown 的主要功能是将各种文件和办公文档转换为 Markdown 格式,从而方便后续的索引、文本分析等操作。

支持的文件格式

MarkItDown 目前支持以下文件格式的转换:

  • PDF (.pdf)
  • PowerPoint (.pptx)
  • Word (.docx)
  • Excel (.xlsx)
  • 图像(EXIF 元数据和 OCR)
  • 音频(EXIF 元数据和语音转录)
  • HTML(对 Wikipedia 等的特殊处理)
  • 其他基于文本的格式(如 CSV、JSON、XML 等)
图像描述与语音转录

特别值得一提的是,MarkItDown 还集成了大语言模型(LLM),可以用于描述图像和进行语音转录。通过配置 mlm_clientmlm_model 参数,开发者可以让 MarkItDown 使用 OpenAI 的 GPT-4 或其他语言模型来生成图像描述或转录音频内容。

例如:

from markitdown import MarkItDown
from openai import OpenAI

client = OpenAI()
md = MarkItDown(mlm_client=client, mlm_model="gpt-4o")

result = md.convert("example.jpg")
print(result.text_content) 

在这个例子中,example.jpg 图像将被发送给指定的语言模型(如 GPT-4),并返回一段描述该图像的文本内容。

开源与许可证

MarkItDown 是在 MIT 开源许可证 下发布的,这意味着开发者可以自由使用、修改和分发该库,唯一的条件是在分发时保留原始的许可证和版权声明。这种开放性使得 MarkItDown 成为一个非常适合开发者社区协作和创新的工具。下面是第三方开发者基于此开源库打造的在线版本。

0

评论0

没有账号?注册  忘记密码?