論文紹介: DIFFERENTIABLE REASONING OVER A VIRTUAL KNOWLEDGE BASE
最近ICLRの論文を読んでおり、以下の論文がとても興味深かったため簡単にまとめました。
最近自然言語処理領域であらゆるタスクをBERT+ファインチューニングで解くことが流行っており、実際高精度な推論結果を得られています。
ただBERT内のデータ構造はブラックボックスであり、個人的には一定構造化された知識を扱いたい感覚があります。
この論文では質問応答システムとして、コーパスを擬似的にナレッジベースのように扱う手法を提案しています。
グレイトフル・デッドの歌手の誕生日は?
この質問に答えるには、まずグレイトフル・デッドの歌手が誰であるかを知る必要があり、そこから誕生日を探す必要があります。
このようなマルチホップ推論が必要な問題は直接学習することが難しく、ナレッジベースのような推論が効果的です。
この論文の提案手法ポイントとして
- コーパスの文からエンティティを取り出して、各分のエンティティの共起からエンティティ同士の関係をTF-IDFベースで計算
- 質問をBERTをつかってエンコードし、コーパス内の各文(TF-IDF)関連性を学習
- 上の過程で、回答のための質問文に登場しない潜在エンティティを抽出しながら回答候補を探索
個人的にはこの処理はとても感覚に合っていて、納得感があります。
具体的な処理は以下にまとめましたので良かったらご覧ください。
最後となりますが私が働いているMNTSQでは自然言語処理エンジニアを募集しておりますので、興味がありましたらぜひ私までご連絡ください!