タイ語PDFのOCR文字認識にはABBYY FineReader がいい

タイ憲法

タイ憲法

タイ語の文書をスキャンしてPDF化し、文字認識させることがAcrobat DC ではできなかった。

追加の機能、アジア言語パックなどをインストールすればできるのかと思ったら、そういうことはできなかった。

とにかく日本語と英語しかOCR認識してくれない。

 

それで代わりのアプリがないかと探してみると、ABBYY FineReader 14 があった。

これは文字認識させる時に「英語+タイ語」を指定できるのでほぼ完璧に認識してくれる。

タイ語の文書にも英語が含まれていることが多いのでタイ語のみを指定すると文字化けする。

行末毎に改行されないようにする方法

タイ語文章を認識した後、Google で翻訳するのだが、PDFからコピー+ペーストする際に、文章が行ごとに改行されていることがあり、翻訳結果がおかしくなる。

Word 形式に変換

行末毎に改行されないように文章をコピー・ペーストするには、一旦Microsoft Word 形式ファイルに変換してみる。

Acrobat でもPDFをWord 形式に変換できるし、ABBYY からでもできる。

ABBYY FineReader でタイ語文字認識させた場合

ABBYY FineReader で文字認識させてPDF作成保存。→ Acrobat で開いてコピー・ペースト= 行末で改行されない。

ABBYY FineReader で文字認識させてPDF作成保存。→ ABBYYでそのままコピー・ペースト= 行末で改行される。

 

というへんてこな結果になる。

拡大してカメラ翻訳

スマホのGoogle Translation アプリでは、カメラ撮影翻訳ができる。

単語・文章を撮影、画像で文字認識させることができる。

紙の文字が小さい時、不鮮明な時には、PCモニターで表示されるPDF文書を拡大してから、カメラ翻訳すると正確さが増す。

 

これでどのようなタイ語の文書でもある程度の内容は掴むことができる。

 

 

 

  • バンスアンマック・ラムシン温泉 (บ่อน้ำร้อนบ้านสวนหมาก ลำสินธุ์ Ban Suan Mak Lam Sin Hot Spring)はまさに川の中にあり、川中温泉と呼ぶにふ ...
  • パッタルン Phatthalung の野生動物育種園 สถานีวิจัยการเพาะเลี้ยงสัตว์ป่าพัทลุง Wildlife Breeding Research Stationを ...
  • 昼食ついでに路傍の店でショッピング。 グアバ (ฝรั่ง ファラン)、うなぎ ปลาไหล プラーライ、スッポンตะพาบน้ำ などあり。 この鰻は日本で食するウナギとは異なり、タウナギというもの ...
  • ラチャプラバダムRatchaprapha Damの近くの友の家に行ってきた。 大きなサトー豆 สะตอ の木があった。 豆房がたくさんぶらさがっていた。 これを採るには一本の竹竿では届かず、2本を継ぎ ...
  • 黄色のアユタヤ銀行(Krungsri)のATMでは、ATMカード無しでタイ全土で手数料無料で現金を引き出すことができる。必要なもの: タイの携帯電話番号 モバイルアプリKMAがインストールされたスマホ ...
  • 先週金曜日にアメリカの金融機関から270万円の送金指示をしたら、タイの銀行には火曜日に 775480฿着金した。 日本円の送金だから、Krungsri 銀行(アユタヤ銀行)の親銀行の三菱UFJ銀行を中 ...
  • 2679年8月20日

    かわった蛙がいた

    変わった模様の小さな蛙がいた。 テラスのシートの下に隠れていたのを発見。 夜になったら窓灯りの集まる虫を食べに来るのだろう。奇しくも、床のタイルの模様と近似している。 わざと模様を似せる能力があるの ...
  • チャンパダ จำปาดะ というフルーツを初めて切って食べた。 ジャックフルーツに似ているが、全体的に小型で、中実はジャックフルーツが黄色なのに対して、橙色が強い。 熟していてとろけている。種のまわり ...

タグクラウド

pdf カテゴリ人気記事 Views most

pdf・タイ カテゴリ人気記事 月間

20190601

タグ関連記事

閲覧履歴

    //cookieが無い場合の処理
2019
GA-views: 11
20190601