こんにちは、全ての経済活動をデジタル化したいTomoakiです。今回はバクラクで内製しているアノテーション基盤を紹介します。

バクラクのOCR

バクラクでは請求書や領収書をはじめ、国税関係書類に対してOCRを実行し入力のサジェストを行うことで、ユーザーが書類の内容を手入力する手間を省いています。例えばこちらの領収書、日付、金額、支払先を自動で読み取ってユーザーにサジェストをしています。

なぜアノテーション基盤が必要なのか

バクラクのOCRでは自前で機械学習モデルを作成しているため、学習用・検証用のデータセットが必要になります。

OCRに必要なこれらのデータセットはどのようにして作るのが良いでしょうか。

お客様が最終的に入力した値を正解ラベルとするのはどうでしょうか？例えば冒頭のレシートの場合、私は7010円として経費精算を申請したので、7010円をそのまま正解ラベルとするといった具合です。

しかし、国税関係書類に対するOCRの難しいところは、お客様の入力値が必ずしも実施に請求書に書いてある値と一致するわけではないということです。例えば、請求書には支払金額5000円と書いてあっても、お客様の都合で金額を変更する場合があります。これは、前月の繰越分を差し引いたり、源泉徴収税を差し引いたりと理由もさまざまあります。

よって、OCRというタスクおいてはお客様の入力値をそのまま正解ラベルとして扱うことはできません。もちろん最終的に、お客様が欲しい値を推薦するタスクは別途必要ですが、ここはあくまでOCRという書いてある情報をそのまま読み取る（文字認識→項目推定）タスクのみを考えます。

お客様の入力値が必ずしも請求書に書いてある値と一致しない例は、決してレアケースではなくお客様によってはほぼ全ての書類に対して記載されていない値を入力する場合もあります。詳しくはこちらをご覧ください。 tech.layerx.co.jp

また、LayoutLMといったマルチモーダルなモデルを利用する場合、テキスト情報とその位置情報が必要になりますが、お客様の入力した値を利用する場合、その値の座標の取得が困難です。例えば、お客様が1000円と入力したとして、帳票に1000円と書いてある箇所を探してその座標を正解ラベルとする、といった方法も考えれますが、1000円という文字列が複数あった場合、どちらの1000円の座標を正解とすべきか判断することができないので限界があります。

tech.layerx.co.jp

したがって、OCRに必要なデータセットを作るにはアノテーション作業が必要になります。

バクラクのアノテーション基盤（通称：バクラクデータ管理）

アノテーション基盤とは一般に画像やテキストなどのデータに対して、人間が付与するタグやラベル、注釈などの情報を管理するプラットフォームです。今回我々が作成したバクラクデータ管理では、帳票の金額・日付など10種類以上の項目に対して以下の値をアノテーションしています。

バウンディングボックス（座標）
ラベル情報（文字列・数字など）

アノテーション作業は想像以上に大変です。全ての項目を手入力していると一枚あたり数分、情報量が多い時は10分近くかかってしまうことも少なくありません。社内用のアノテーションツールもプロダクトであり、目指すは手入力ゼロ、バクラクな体験を目指しました。

工夫した点

徹底的に手入力をなくす

①：事前アノテーション

事前にOCRをかけておき、OCRが読み取った座標とラベルを事前に入力しておくことで、OCRが間違えている場合のみ修正するだけで作業が完結するようにしています。この時点でアノテーション作業は格段に減少します。OCRの精度が100%であれば何も変更することなく、作業が終了します。

②：入力補完機能

①で事前アノテーションした値が間違っていた場合修正が必要になります。ここで修正の候補として、他のモデルの推論結果やお客様の入力値を表示します。バクラクのOCRでは毎回複数のモデルで推論を行なっているため、仮に①で事前アノテーションに利用されたモデルが間違っていたとしても他のモデルの値を候補に出し、ワンクリックで切り替え可能にすることで、入力の負担が大幅に減ります。