MNTSQからみらい翻訳に転職しました

2020年11月末でMNTSQ株式会社を退職し、2020年12月より株式会社みらい翻訳に入社しました。

MNTSQは自然言語処理技術を主力とした法務領域向けプロダクトを展開するスタートアップです。みらい翻訳は機械翻訳プロダクトを提供している会社で、どちらも自然言語処理技術をコアとしたプロダクトを作っている会社です。

MNTSQでは、法務というドメインの固有の課題に取り組む面白さを感じていたところだったのですが、みらい翻訳での機械翻訳という自分が最も固有の価値を発揮できそうなドメインに出会い、転職を決意しました。

AI(機械学習)という季節が常に冬か春しかない業界にいて、自分がキャリアについて考える際に、よく尊敬する人たちの入社/退職エントリを参考にしました。 自分の話が誰かの役に立つことは少ないと思うものの、一例として残してみようと思います。

自分について

私のMNTSQ入社までの話は、過去に入社エントリ にまとめましたので、よければご参考いただければと思います。要点をまとめると

この記事を書いたのは、MNTSQ入社間もない時期であり、その後を踏まえてもう少し詳細を書きます。

MNTSQでやったこと

自然言語処理での取り組み

MNTSQ在職中に二つのプロダクト開発に携わりました。一つが 法律事務所向けに、自然言語処理技術を活用して弁護士の業務をサポートするプロダクトです。もう一つは一般企業向けに、契約書管理のためのデータベースを提供するプロダクトです。プロダクトの詳細説明は割愛しますが、自然言語処理観点の主な作業として、契約書に対しておなじみの文セグメンテーション、クラス分類、NERなどの技術を適用していきます。

MNTSQのようなドメイン特化のスタートアップでは、機械学習エンジニアに求められる役割はモデル構築のみならず、ドメイン知識への理解が重要です。モデルの精度は機械的に計測できますが、実際の予測のエラーを見ながら、学習データの偏りを発見したり、テストデータの分割ミスを見極めることが重要です。また、対象のタスクに対して、データの追加が必要かどうかや、機械学習で解くのが本当に最適なのかどうかの感覚を早い段階で掴むことも重要だと思います。

そのためにはドメイン知識の吸収が必須です。もちろん弁護士と同じレベルでの理解は厳しいため、70~80%くらいは自分で正しくアノテーション出来ることを目標にしました(あくまで目標)。

各タスクごとに、弁護士やパラリーガルが詳細なアノテーション基準をマニュアルに記述してもらいました。私たち機械学習エンジニアがそれをもとに理解を深めます。このマニュアルはタスクによっては数十ページに及ぶこともあります。

私がMNTSQに入社しなければ、おそらく一生得られないであろう体験として、真っ先に頭に浮かぶのは弁護士やパラリーガルとの濃密な会話です。 エラー分析やドメイン知識のレクチャーなど、それまでの人生で接点が無い属性の人たちと、複雑な構造の問題を一緒に解いていくことは今後ほぼ無いと思います。

機械学習エンジニアとして

機械学習モデルの精度や振る舞いが基準に達したあと、機械学習エンジニアの手で製品に組み込みます。

正直のところ、私は入社時は自然言語処理関連のコーディングは一定出来ていたものの、ソフトウェア開発関連の知識が不足していました。GitHubを用いたチーム開発やモジュール設計、テストなど、広い範囲での知識不足を埋めることに初期はかなりの労力を費やしました。幸いなことに、手本になるような優秀な同僚はたくさんおり、多くのことを参考にさせてもらいました。

ネット上では 機械学習エンジニアの守備範囲はどこまでか に関する議論を多く見かけます。私の考えとしては可能な限り、ソフトウェア全体を見れるようになるべきだと思います。

ここでいう「見れる」とは、実装レベルに至らなくとも、頭の中で全体の構成要素やデータの流れを意識できることを指します。 プロダクトは成長するにつれて、データ構造や処理は少しずつ変化していきます。その際、機械学習部分がボトルネックにならないよう、他の領域に合わせて機械学習部分が対応したり、もしくは機械学習のパフォーマンスを向上させるために、他の領域に要望を出すこともプロダクトを成長させていく上で必要です。そのためにも全体への理解が重要だと私は思います。

なぜ転職したのか

MNTSQで私が目指した姿は「高い自然言語処理技術を保ちながら、パラリーガルの50%ほどの法務知識を有する」でした。自然言語処理技術は必要に応じてインプットしていきつつ、法務知識を自身のコアバリューとして、他の自然言語処理技術者と差別化を図る考えです。

平坦な道のりではない事を覚悟しつつ、かなり長期的な取り組みとして意識しました。

そんな中、たまたま届いたスカウトメールに「みらい翻訳」が記載されており、興味本位で話を聞いてみようと思いました。

日本で自然言語処理に携わるものであれば、一度は耳にしたことがある企業だと思います。機械翻訳プロダクトを提供する会社であり、登場当初はGoogle翻訳より自然な日本語を出力するとして、一時SNS上で話題になりました。最近はDeepLとの比較をTwitter等でよく目にします。

軽い気持ちでカジュアル面談を受けたところ、自分の目指す方向性と自分ならではの強みを活かせると確信し、その後入社を決意しました。

なぜそう思ったかというと、私自身について少し補足します。
私はもともと中国生まれです。10歳に来日し、それ以降日本で生活しています。中国語の読み書きは少し衰えてがあるものの、多少リハビリすれば短い期間でネイティブに戻れるレベルにあると思います。日本語はすでに中国語より利用期間が長く、一部の発音アクセントを除けばネイティブと大きな差はないと思います。

MNTSQ勤務で感じたドメイン知識の大切さと、その習得には大変時間と労力を要することに対して、日中の機械翻訳という領域であれば最短距離を歩めると直感しました。

もちろんネイティブスピーカーだからといって、高品質な翻訳ができるとは限らず、翻訳の専門家が技術としていることを身につけるには、多くの努力が必要だと認識しています。それでも言語をゼロから習得するよりは、遥かに距離が近いと考えました。

転職にあたって考えたこと

  • 折角身についた法務知識を捨てるのか?
    • 面接を通じて法務領域での翻訳は重要な市場であると知り、いずれそれに着手する際は、翻訳の精度評価には法務知識は活用できると感じました
  • 素人が機械翻訳の世界に飛び込めるのか?
    • これは最も悩んだポイントです。機械翻訳はパソコンよりも歴史が古く、多くの研究がなされてきた領域です。正直やっていけるかの不安もありますが、そんな領域にチャレンジできる嬉しさが勝りました
  • どうせ転職するのであれば、一度自然言語処理から離れてみるのもありでは?
    • ここ数年自然言語処理に携わった感覚としては、ますます関心深まっていくばかりです。変わったこととしては、昔ほど論文を読み耽ることは少なくなり、よりソフトウェア領域へシフトしているが、自然言語処理領域の軸は変わっていません。今後も長期的に携わっていきたいです

みらい翻訳に入社してから

本記事執筆時点で、オンボーディング期間を除き、まだ2週間程度しか実務に携わっていません。現時点で感じたことを少し書きます。

手始めに機械翻訳システムの全体構成を確認しました。詳細はここでは書きませんが、

  • 由緒正しき自然言語処理が随所で使われている
    • 昔から自然言語処理に携わる人が好きそうな処理がたくさんあります
  • 大規模深層学習モデルの実務運用
    • インフラやデータサイズは桁違いのスケールであり、モデリング以外にも意識すべきことがたくさんある

特にこの二点は今後の楽しみを増幅させました。かなり大規模なシステムであり、詳細を理解するには時間を要しますが、複雑なものに楽しみながら取り組めることは重要です。

みらい翻訳のユニークなコンテンツとして、翻訳チーム10本ノック(実際は10本以上あります)というカリキュラムが用意されています。名前でピンとくる人も多いのではないでしょうか。これは機械翻訳システムを各処理ごとに切り分け、それを一つずつ動かしていきながら全体を理解していくものです。1週間はほぼこれのみに費やしました。おかげでシステム全体への解像度がかなりあがりました。これは他の会社にもおすすめできる取り組みです。

実務では日中の機械翻訳チームに参加しました。すでに中国語の語学力が活きる場面に多々遭遇し、現時点で目指していたドメイン知識を十分に備えた機械学習エンジニアに近い動きが出来ていると感じます。

これから

まずは機械翻訳の進化の歴史を抑えようと考え、現在読むべき論文リストを整理しています。ソフトウェア観点でも、これまで経験のない大規模モデルの学習や運用について理解すべきことが多くあります。

やるべきは多いものの、言語知識あることが幸いし、少しは余裕を持って取り組めると感じています。また、ゼロから法務領域にチャレンジできたことで、なんとかなるだろうという自信に多少繋がっています。

おわりに

長くなりましたが、好き勝手書かせてもらいました。

MNTSQ在職中に、組織課題として常にトップに位置したのが採用でした(おそらく今もそう)。にもかかわらず抜けてしまい、若干申し訳無さを感じています。 ここまで読んでくださった人には、転職がネガティブな要因ではないことは伝わったと思いますので、自然言語処理領域で転職をお考えの際はぜひ一度MNTSQも検討してみてください。

みらい翻訳での機械翻訳に興味ありましたら、ぜひ私宛にDMください。

2020年は色々と自粛を意識した年でしたが、まさか最後に転職するとは思いませんでした。

引き続き仕事を楽しみながら、成長していこうと思います。