タイ語PDFのOCR文字認識にはABBYY FineReader がいい

タイ憲法

タイ憲法

タイ語の文書をスキャンしてPDF化し、文字認識させることがAcrobat DC ではできなかった。

追加の機能、アジア言語パックなどをインストールすればできるのかと思ったら、そういうことはできなかった。

とにかく日本語と英語しかOCR認識してくれない。

 

それで代わりのアプリがないかと探してみると、ABBYY FineReader 14 があった。

これは文字認識させる時に「英語+タイ語」を指定できるのでほぼ完璧に認識してくれる。

タイ語の文書にも英語が含まれていることが多いのでタイ語のみを指定すると文字化けする。

行末毎に改行されないようにする方法

タイ語文章を認識した後、Google で翻訳するのだが、PDFからコピー+ペーストする際に、文章が行ごとに改行されていることがあり、翻訳結果がおかしくなる。

Word 形式に変換

行末毎に改行されないように文章をコピー・ペーストするには、一旦Microsoft Word 形式ファイルに変換してみる。

Acrobat でもPDFをWord 形式に変換できるし、ABBYY からでもできる。

ABBYY FineReader でタイ語文字認識させた場合

ABBYY FineReader で文字認識させてPDF作成保存。→ Acrobat で開いてコピー・ペースト= 行末で改行されない。

ABBYY FineReader で文字認識させてPDF作成保存。→ ABBYYでそのままコピー・ペースト= 行末で改行される。

 

というへんてこな結果になる。

拡大してカメラ翻訳

スマホのGoogle Translation アプリでは、カメラ撮影翻訳ができる。

単語・文章を撮影、画像で文字認識させることができる。

紙の文字が小さい時、不鮮明な時には、PCモニターで表示されるPDF文書を拡大してから、カメラ翻訳すると正確さが増す。

 

これでどのようなタイ語の文書でもある程度の内容は掴むことができる。

 

 

 

  • ドイトゥン近くの標高1400mぐらいのところに植物園があり、そこから2km下るとアカ族の村Lise があった。 地図にはキャンプ場と書いてあったがそれらしい施設はなく、広場でもどこでも勝手にキャンプで ...
  • 2679年10月24日

    水が化学臭い

    3週間目になるアパートの水が化学臭いということが明らかになってきた。 シャワーの水お湯は勢いよく出るが、これも化学臭い。 肌から化学物質が吸収されるだろう。 ご飯を炊く水道の水も化学臭いから、米を洗う ...
  • 去年の6月にShoppee で買ったQC3規格の携帯バッテリー PB-T15 が壊れて充電ができなくなった。 Shoppee の販売店Beyond Gadgetにチャットでクレームすると、1年半の保証 ...
  • リタイアメントビザの期限切れが迫り、メーサイまで更新に行ってきた。 パスポートも来年4月で有効期限切れだったから先にチェンマイの日本領事館でパスポートの更新をしてきた。 水曜日に申請して翌週の月曜日の ...
  • 朝の温泉浴後、登山道入り口まで車で移動して、ジョギング開始。 10ヶ月ぶり2回目の登山になる。 上り坂になると歩きになる。 汗だくゼーゼーになる。 途中でシャツを脱いで汗を絞る。下りは別ルートにしてみ ...
  • 朝の5時過ぎ、まだ暗い中、温泉に行くために車に近づくと、車を出すと引かれてしまいそうな砂利の上にカブトムシがいた。 見かけは日本のカブトムシに似ていると思ったら、写真をよく見比べてみると、下の角が上よ ...
  • スラタニからチェンライまで戻ってきた。 17日間かかった。 また、パトゥン温泉のあるメーチャンMae Chanに落ち着いた。 運動不足で体のなまりを感じる。朝ジョグでドイトン佛道院 Doi Ton M ...
  • バンスアンマック・ラムシン温泉 (บ่อน้ำร้อนบ้านสวนหมาก ลำสินธุ์ Ban Suan Mak Lam Sin Hot Spring)はまさに川の中にあり、川中温泉と呼ぶにふ ...

タグクラウド

pdf カテゴリ人気記事 Views most

pdf・タイ カテゴリ人気記事 月間

20190601

タグ関連記事

閲覧履歴

    //cookieが無い場合の処理
2019
GA-views: 21
20190601