微軟開源的 Python 工具,可以將 Office 的文件,轉換成 Markdown 格式
markitdown 微軟開源將 Office 文件轉成 Markdown 格式
Markdown 就是文字模式,也就可以轉換成 HTML 或各種其它格式
在 GitHub 的範例看到用的都是 PDF,理論上 XLS、DOC 應該都要可以才是,還沒使用過,先留個紀錄,以防以後需要用找不到~
- 詳見:GitHub - microsoft/markitdown: Python tool for converting files and office documents to Markdown.
範例
- markitdown path-to-file.pdf > document.md
- markitdown path-to-file.pdf -o document.md
- cat path-to-file.pdf | markitdown