タイ語の文書をスキャンしてPDF化し、文字認識させることがAcrobat DC ではできなかった。
追加の機能、アジア言語パックなどをインストールすればできるのかと思ったら、そういうことはできなかった。
とにかく日本語と英語しかOCR認識してくれない。
それで代わりのアプリがないかと探してみると、ABBYY FineReader 14 があった。
これは文字認識させる時に「英語+タイ語」を指定できるのでほぼ完璧に認識してくれる。
タイ語の文書にも英語が含まれていることが多いのでタイ語のみを指定すると文字化けする。
行末毎に改行されないようにする方法
タイ語文章を認識した後、Google で翻訳するのだが、PDFからコピー+ペーストする際に、文章が行ごとに改行されていることがあり、翻訳結果がおかしくなる。
Word 形式に変換
行末毎に改行されないように文章をコピー・ペーストするには、一旦Microsoft Word 形式ファイルに変換してみる。
Acrobat でもPDFをWord 形式に変換できるし、ABBYY からでもできる。
ABBYY FineReader でタイ語文字認識させた場合
ABBYY FineReader で文字認識させてPDF作成保存。→ Acrobat で開いてコピー・ペースト= 行末で改行されない。
ABBYY FineReader で文字認識させてPDF作成保存。→ ABBYYでそのままコピー・ペースト= 行末で改行される。
というへんてこな結果になる。
拡大してカメラ翻訳
スマホのGoogle Translation アプリでは、カメラ撮影翻訳ができる。
単語・文章を撮影、画像で文字認識させることができる。
紙の文字が小さい時、不鮮明な時には、PCモニターで表示されるPDF文書を拡大してから、カメラ翻訳すると正確さが増す。
これでどのようなタイ語の文書でもある程度の内容は掴むことができる。