google-vision – テキスト抽出 – 行ごと

主にテキストの抽出にGoogle Vision APIを使用しています。私はうまくいきますが、enter行をスキャンするためにAPIが必要な特定の場合には、次の行に移動する前にテキストを吐き出します。ただし、APIは、左側では上から下へスキャンし、右へ移動して上から下へスキャンするような何らかのロジックを使用しているようです。 APIを左から右に読み、下に移動するというようにすればいいのですが。

たとえば、次の画像を考えます。

enter image description here

APIは次のようなテキストを返します。

“ Name DOB Gender: Lives In John Doe 01-Jan-1970 LA ”

一方、私はこのようなものを期待していたでしょう:

“ Name: John Doe DOB: 01-Jan-1970 Gender: M Lives In: LA ”

1行ずつイメージ/スキャンを読み取るためのブロックサイズまたはマージン設定(?)を定義する方法があると思いますか?

ご協力いただきありがとうございます。
アレックス

ベストアンサー
これは遅い答えかもしれませんが、将来の参考のためにそれを追加します。
JSONリクエストに機能のヒントを追加して、目的の結果を得ることができます。

{
  "requests": [
    {
      "image": {
        "source": {
          "imageUri": "https://i.stack.imgur.com/TRTXo.png"
        }
      },
      "features": [
        {
          "type": "DOCUMENT_TEXT_DETECTION"
        }
      ]
    }
  ]
}

非常に離れているテキストの場合、DOCUMENT_TEXT_DETECTIONも適切な行分割を提供しません。

次のcodeは、文字のポリゴン座標に基づいて単純な線分化を行います。

enter image description here

https://github.com/sshniro/line-segmentation-algorithm-to-gcp-vision

転載記事の出典を記入してください: google-vision – テキスト抽出 – 行ごと - コードログ