Home

Awesome

日本語版 | English

<img src="static/logo/horizontal.png" width="800px">

Python Pytorch CUDA OS Document

🌟 概要

YomiToku は日本語に特化した AI 文章画像解析エンジン(Document AI)です。画像内の文字の全文 OCR およびレイアウト解析機能を有しており、画像内の文字情報や図表を認識、抽出、変換します。

🖼️ デモ

gallery.mdにも複数種類の画像の検証結果を掲載しています。

入力画像OCR の結果
<img src="static/in/demo.jpg" width="400px"><img src="static/out/in_demo_p1_ocr.jpg" width="400px">
レイアウト解析の結果エクスポート<br>(HTML で出力したものをスクショ)
<img src="static/out/in_demo_p1_layout.jpg" width="400px"><img src="static/out/demo_html.png" width="400px">

Markdown でエクスポートした結果は関してはリポジトリ内のstatic/out/in_demo_p1.mdを参照

画像の出典:「令和 6 年版情報通信白書 3 章 2 節 AI の進化に伴い発展するテクノロジー」:(総務省) を加工して作成

📣 リリース情報

💡 インストールの方法

pip install yomitoku

🚀 実行方法

yomitoku ${path_data} -f md -o results -v --figure --lite

その他のオプションに関しては、ヘルプを参照

yomitoku --help

NOTE

📝 ドキュメント

パッケージの詳細はドキュメントを確認してください。

LICENSE

本リポジトリ内に格納されているソースコードおよび本プロジェクトに関連する HuggingFaceHub 上のモデルの重みファイルのライセンスは CC BY-NC-SA 4.0 に従います。 非商用での個人利用、研究目的での利用はご自由にお使いください。 商用目的での利用に関しては、別途、商用ライセンスを提供しますので、https://www.mlism.com/ にお問い合わせください。

YomiToku © 2024 by Kotaro Kinoshita is licensed under CC BY-NC-SA 4.0. To view a copy of this license, visit https://creativecommons.org/licenses/by-nc-sa/4.0/