ホーム拡張機能OCRでテキスト検索可能なOOXMLファイルを作成する

OCRでテキスト検索可能なOOXMLファイルを作成する

OOXML形式(PPTX形式、DOCX形式、XLSX形式)でファイルを送信するときに、OCRの文字認識技術を利用して、テキスト検索が可能なファイルを作成します。

OOXML形式のファイルを検索可能にするときは、ファイル形式として[PPTX]、[DOCX]、[XLSX]のいずれかを選び、[OCR(文字認識)]で、次の設定をします。

設定

説明

[ON]/[OFF ]

OOXMLファイルを検索可能にするときは、[ON]を選びます。

[言語選択]

OCR処理に使う言語を選びます。

正しく文字認識を行うには、原稿で使われている言語を選びます。

[回転補正]

OCR処理により検出した文字の向きに合わせてページごとに自動で回転補正を行うときは、オンにします。

回転補正を行わないときは、指定した原稿の向きが文字の向きと異なる場合に、文字が正しく認識されません。

[出力形式]

ファイル形式として[DOCX]または[XLSX]を選んだ場合に設定できます。

OCR処理により検出した文字を使用して、どのようにOOXMLファイルを作成するかを選びます。

ファイル形式として[DOCX]を選んだ場合

読込んだ原稿を解析して、原稿のイラストなどを含む「画像データ」、OCR処理により検知した「文字データ」、原稿の文字部分を画像として扱う「文字画像データ」を作成します。

  • [文字優先]:「文字データ」「画像データ」を組合わせて、テキスト検索可能なDOCXファイルを作成します。OCR処理により検知した「文字データ」をそのまま表示するため、OCR処理の結果によっては、読込んだ原稿と同じ見栄えにならない場合があります。

  • [画像優先]:「画像データ」「文字画像データ」のみを組合わせて、DOCXファイルを作成します。

  • [画像と文字]:「画像データ」「文字データ」「文字画像データ」をすべて組合わせて、テキスト検索可能なDOCXファイルを作成します。「文字データ」「文字画像データ」と別に保存されるため、原稿の見栄えを保ちつつ、テキスト検索も行えます。

ファイル形式として[XLSX]を選んだ場合

読込んだ原稿から、原稿の「スキャン画像」と、OCR処理により検知した「文字データ」を作成します。

  • [画像と文字]:「スキャン画像」「文字データ」を組合わせて、テキスト検索可能なXLSXファイルを作成します。原稿の見栄えを保ちつつ、テキスト検索も行えます。

  • [文字のみ]:「文字データ」のみを使って、テキスト検索可能なXLSXファイルを作成します。OCR処理により検知した「文字データ」をそのまま表示するため、OCR処理の結果によっては、読込んだ原稿と同じ見栄えにならない場合があります。

  • この機能を使うには、オプションが必要です。必要なオプションについて詳しくは、こちらをごらんください。

  • デジタル証明書(デジタルID)による暗号化を同時に設定する場合、[回転補正]を設定できません。

  • [言語選択]で次の言語を選んだときは、縦書きと横書きを自動的に認識します。
    [日本語]、[中国語]、[韓国語]、[台湾語]

  • [言語選択]で次の言語を選んだときに、原稿の同じページに縦書きと横書きが混在している場合は、どちらか一方の向きで認識されます。
    [中国語]、[韓国語]、[台湾語]