LayerX エンジニアブログ

LayerX の エンジニアブログです。

機械学習

Vertex AI PIpelinesでの実験を加速させるためのTIPS #LayerXテックアドカレ

この記事は、LayerX Tech Advent Calendar 2024 の 5 日目の記事です。 tech.layerx.co.jp こんにちは。バクラク事業部のAI-OCRグループでTech Leadをしている島越 (@nt_4o54)です。 今回は、Vertex AI Pipelinesを用いてチームで実験を行う際のTIPS的なもの…

バクラクのデータセットを用いた項目領域推定とレイアウト情報の重要性

こんにちは。機械学習エンジニアの上川です。本記事では、バクラクのデータを用いて書類上の項目領域を推定する物体検出モデルを構築し、項目領域の推定におけるレイアウト情報の重要性について考察を行ったので、その紹介をします。 AI-OCRにおけるレイアウ…

LLMを活用した機械学習モデルのアノテーション効率化

機械学習エンジニアの吉田です。今回は、LLM (Large Language Models) を活用して、機械学習モデルに必要なデータのアノテーション作業を効率化する取り組みについて紹介します。 なお、アノテーションにおけるLLMの利用に関しては、クラウドベンダー各社及…

経費科目推薦機能の機械学習アークテクチャ #ベッテク月間

こんにちは。 LayerXのバクラク事業部 機械学習チームのテックリードを務めております機械学習エンジニアの島越(@nt_4o54)です。 7月はLayerXのエンジニアブログがたくさん出る#ベッテク月間です。LayerXの行動指針の一つである「Bet Technology」を略して…

LLM時代のデータ基盤 : 非構造化データを扱うETLプロセスの重要性 #ベッテク月間

こんにちは!LayerXのバクラク事業で機械学習・データ周りを担当しております、たかぎわ (@shun_tak) と申します。 みなさま、ChatGPTの登場に衝撃を受け、これを日々の生活やビジネスに活用されていることかと思います。わたしも社内でChatGPT活用の勉強会…

今LayerXのバクラク事業部 機械学習グループに入るべき理由(2024年版)

すべての経済活動を、デジタル化したい松村(@yu-ya4)です。LayerXのバクラク事業部機械学習グループにおいて機械学習エンジニア兼マネージャーを務めています。 先日、代表の福島(@fukkyy)が以下のnoteを公開しました。LayerXの発信を見てくださっている社外…

バクラクのAI-OCRが扱う問題の複雑さ

こんにちは。 LayerXのバクラク事業部 機械学習チームのテックリードを務めております機械学習エンジニアの島越(@nt_4o54)です。 最近、カジュアル面談や学会などで「AI-OCRってもうほぼ完成で、運用フェーズですよね」「やることあるんですか?」など頻繁…

機械学習とビジネスゴールのはざまで

機械学習をプロダクトに取り入れて磨き上げているいるみなさん。機械学習モデルのオフライン評価とビジネス上のKPIとを近づける難しさを感じてませんか? はじめに 深澤 (@qluto) です。 LayerXという会社で、経理業務をはじめとした業務支援を行うバクラク…

Document Layout Analysisに物体検出を利用したDocument Object Detectionのすゝめ

はじめに こんにちは。バクラク事業部 機械学習チームの機械学習エンジニアの上川(@kamikawa)です。 バクラクではAI-OCRという機能を用いて、請求書や領収書をはじめとする書類にOCRを実行し、書類日付や支払い金額などの項目内容をサジェストすることで、お…

TensorRTとTriton Inference Serverで推論サーバの性能を劇的に改善し本番導入した話

機械学習エンジニアの吉田です。前回は NVIDIA Triton Inference Server の性能を検証した話を書きましたが今回はその続編となります。 tech.layerx.co.jp 前回の記事以降も継続してTriton Inference Serverの検証を重ねた結果、推論サーバの性能を大幅に改…

JSAI2024 (第38回 人工知能学会全国大会) にプラチナスポンサーとして協賛いたします

バクラク事業部 機械学習グループのテックリードを務めております機械学習エンジニアの島越(@nt_4o54)です。LayerXは、JSAI2024(第38回 人工知能学会全国大会)にプラチナスポンサーとして協賛いたします。LayerXがJSAIに参加するのは去年に引き続き2回目…

アノテーションの研究事例からLayerXにおける改善案を考える

こんにちは! LayerXで機械学習エンジニアをしている伊藤 (@sbrf248) です。直近はOCRモデルの学習・評価に使うデータセット周りの改善に取り組んでいます。 今回は、データセット作成におけるアノテーションに注目し、関連する研究分野や、LayerXにおける改…

NVIDIA Triton Inference Server の性能検証

機械学習エンジニアの吉田です。今回は機械学習モデルの推論サーバとして NVIDIA Triton Inference Server の性能を検証した話です。 (追記) 続編も書きました tech.layerx.co.jp 背景 バクラクでは請求書OCRをはじめとした機械学習モデルを開発していますが…

バクラクはMLOpsエンジニアを必要としています

こんにちは。機械学習チームでソフトウェアエンジニアをしているTomoakiです。 バクラクはMLOpsエンジニアを必要としており、今回はバクラクでMLOpsをやる面白さや現状抱えている課題について紹介します。 バクラクとは bakuraku.jp バクラクは経費精算、稟…

NLP2024(言語処理学会第30回年次大会)にプラチナスポンサーとして協賛いたします

バクラク事業部 機械学習グループのマネージャーを務めております機械学習エンジニアの松村(@yu-ya4)です。LayerXは、NLP2024(言語処理学会第30回年次大会)にプラチナスポンサーとして協賛いたします。 NLP2024は現地とオンラインのハイブリッド開催が予…

DEIM2024(第16回データ工学と情報マネジメントに関するフォーラム)にプラチナスポンサーとして協賛します

バクラク事業部 機械学習グループのマネージャーを務めております機械学習エンジニアの松村(@yu-ya4)です。LayerXは、DEIM2024(第16回データ工学と情報マネジメントに関するフォーラム)にプラチナスポンサーとして協賛いたします。 DEIM2024 バーチャル…

AI-OCRパイプラインのレイテンシーモニタリングをDatadogで爆速構築した話

この記事は MLOps Advent Calendar 2023 の22日目の記事になります。 こんにちは、バクラクの機械学習チームでソフトウェアエンジニアをしているTomoakiです。 あらゆる点でコスパが最強すぎて最近毎日鍋を食べています。今日はちゃんこ鍋ぽい何かをグツグツ…

AIの民主化が進む時代におけるバクラクのAI-OCR機能の開発戦略 #LayerXテックアドカレ

LayerX バクラク事業部 機械学習チームの機械学習エンジニア兼マネージャーの松村(@yu-ya4)です。半年間に結婚祝いでいただいたたくさんのお酒が順調に減ってきているのですが、サントリーウイスキー角瓶 4Lペットだけはなくなる気配がありません。 この記…

バクラクの帳票画像を用いたDALL-E dVAEの学習

機械学習エンジニアの吉田です。 この記事はLayerXテックアドカレ14日目の記事です。前回は @shnjtk による ストーリーポイントではなくアウトカムで開発速度を測る でした。次回は osuke さんが担当します。 今回はバクラクの帳票画像を使ってDALL-EのdVAE …

Vertex AI Pipelinesを用いて爆速ML開発の仕組みを構築する #LayerXテックアドカレ

こんにちは。LayerXのバクラク事業部で機械学習エンジニアをしている@shimacosです。 最近、体重が増える一方で危機感を感じ始めたので、ダイエットを始めました。 ダイエットを始めて早3ヶ月ほどですが、一向に痩せません。何故でしょう? この記事はLayerX…

〜OCR戦記〜適格事業者登録番号との戦い🔥🔥🔥

この記事はLayerXテックアドカレ2023の5日目の記事です。 昨日はmakogaさんがEngineering Career Ladderを作るときに気をつけたこと 其の一を書いてくれました。 次回はyuya-takeyamaさんがMicrosoft Graph APIについて書いてくれます!乞うご期待! こんに…

Web系ソフトウェアエンジニアが機械学習エンジニアに囲まれて働く面白さ

この記事はLayerXテックアドカレ2023の2日目の記事です。 昨日はconvtoさんが「つくってまなぶ静的解析のすすめ」を書いてくれました。 次回はData&ML部の部長のgiwaさんが渾身の記事を書いてくれます。 こんにちは、未来の希望を実装したいTomoakiです。 今…

バクラクのデータセットを用いたLayoutLMv3による事前学習

機械学習エンジニアの吉田です。本記事では、LayoutLMv3*1というモデルをバクラクで取り扱っている帳票で事前学習を行い、それをファインチューニングして項目推定タスクに取り組んでいる話をご紹介します。 背景 LayerXで提供しているバクラクでは帳票をア…

LayerXではKaggleなどのデータ分析コンペティションへの参加をサポートする制度を開始しました。

バクラク事業部Data/ML部 ML(機械学習)グループのマネージャー兼機械学習エンジニアの松村(@yu-ya4)です。 LayerXではKaggleなどのプラットフォームや機械学習系の学会などにより開催されるデータ分析コンペティションに社員が参加することをサポートす…

Document AIを巡る技術とLayerXにおける可能性

初めまして。機械学習エンジニアの島越@nt_4o54です。現在はMLチームで日々、バクラクシリーズで用いられているAI-OCR機能の改善や新規機能の開発などを行なっています。 7月はLayerXエンジニアブログを活発にしよう月間ということで、自分からは表題にもあ…

【JSAI2023参加レポート】バクラクOCRの取り組みに関する発表内容やセッションの紹介など

機械学習エンジニアの吉田です。 この記事は2023年6月6日(火) ~ 6月9日(金)に熊本で開催されたJSAI2023 (第37回 人工知能学会全国大会) の参加レポートとなります。 LayerXとして今年はDEIM、NLPに続く3回目の学会参加となりました。 今回JSAIに初めてプラチ…

JSAI2023(第37回 人工知能学会全国大会)にプラチナスポンサーとして協賛いたします

バクラク事業部OCR/MLチームのマネージャーを務めております機械学習エンジニアの松村(@yu-ya4)です。LayerXは、JSAI2023(第37回 人工知能学会全国大会)にプラチナスポンサーとして協賛いたします。 インダストリアルセッションの中でバクラクシリーズの…

アノテーションなのに手入力ゼロ!?バクラクのOCRを支えるアノテーション基盤(アプリケーション編)

こんにちは、全ての経済活動をデジタル化したいTomoakiです。 今回はバクラクで内製しているアノテーション基盤を紹介します。 バクラクのOCR バクラクでは請求書や領収書をはじめ、国税関係書類に対してOCRを実行し入力のサジェストを行うことで、ユーザー…

読み取りの精度の先の体験を追求するバクラクのAI-OCR

こんにちは、全ての経済活動をデジタル化したいTomoakiです。 推しのコンビニスイーツはセブンイレブンの草もちです。 今回は読み取りの精度の先の体験を追求するバクラクのAI-OCR機能について紹介します。 TL;DR バクラクでは国税関係書類に対してOCRを実行…

NLP2023(言語処理学会第29回年次大会)にゴールドスポンサーとして協賛いたします

バクラク事業部OCR/MLチームのリーダーを務めております機械学習エンジニアの松村(@yu-ya4)です。LayerXは、NLP2023(言語処理学会第29回年次大会)にゴールドスポンサーとして協賛いたします。 NLP2023 ゴールドスポンサー NLP2023は現地とオンラインのハ…