英文法律関連テキストを対象とした文境界推定の論文を読む
はじめに
法律ドメインに特化した自然言語処理は、ビジネス上重要な位置を占めるにもかかわらず、金融や医療等の他の分野と比べいままであまり重きをおかれることがなかった分野でした。
法律関連のタスクに電子機器が使われる機会は徐々に高まっており、自然言語処理を応用し、法律の実務家や法律関連SaaSのユーザに価値を提供する機会もまた増えてきています。
このような状況の中で、自然言語処理の研究者と法律の実務家が一堂に会する機会を設けるためにNLLP (Natural Legal Language Processing)ワークショップが設立されました。 今年はCovid19の影響でバーチャル開催され、KDD(Knowledge Discovery and Data Mining)と同時期に行われています。
本記事ではNLLP 2019で発表された論文:Sentence Boundary Detection in Legal Text を元にドメイン特有の文境界推定(Sentence Boundary Detection : SBD)の手法を見ていきます。
文境界推定について
日本語書き言葉の場合は句読点のおかげであまり問題にはならないかもしれませんが、英文テキストについては文境界推定は重要な自然言語処理タスクの一つとされています。
例えば、文中にピリオドがない通常の英文ではピリオドで文の境界を決定できますが、ピリオドを含むような要素が文に含まれている場合、文境界の決定は困難なものになります。
- 文書タイトル :
UNITED STATES of America, Plaintiff– Appellee, v. Matthew R. LANGE, Defendant–Appellant.
- リスト:
1. The Veteran does meet the criteria for a diagnosis of posttraumatic stress disorder (PTSD).
他のドメインのテキストでは文境界決定タスクはほとんど解かれているというのが定説ですが、法律ドメインのテキストは法律ドメインならではの難しさがあります。
法律文書における文境界推定の困難さについて
文境界推定が法律ドメインのテキストに対して特に困難なのは、それらが構造化された節や前文、後文から成っており、新聞記事のような解説文でないためです。
以下に法律ドメインのテキストに特有の文構造を列挙します。
要素 | テキスト例 |
---|---|
文書タイトル | UNITED STATES of America, Plaintiff– Appellee, v. Matthew R. LANGE, Defendant–Appellant. |
見出し | ARGUMENT INTRODUCTION I. BACKGROUND |
フィールドと値 | DOCKET NO. A–4462–13T2 |
ページ番号 | *1163 See United States v. Pina-Jaime, 332 F.3d 609, 612 (9th Cir.2003) |
省略記号(...) | ...After granting discretionary review, the Supreme Court, Aker, J., held that rule, which stated that court |
括弧書き | see also United States v. Infante-Ruiz, 13 F.3d 498, 504- 505 (1st Cir.1994) (when third party consent to search vehicle and trunk is qualified by a warning that the briefcase belonged to another, officers could not assume without further inquiry that the consent extended to the briefcase) |
数え上げリスト | FINDINGS OF FACT 1. The Veteran does meet the criteria for a diagnosis of posttraumatic stress disorder (PTSD). |
注釈 | and three counts of possession of device-making equipment, 18 U.S.C. § 1029(a)(4).[2] |
文中参照 | Thus, even an “infinitesimal contribution to the disability might require full contribution.” (Id., at pp. 430–431, 133 Cal.Rptr. 809.) The Heaton court also rejected this argument, noting that section 31722 explicitly provided for mental as well as physical disabilities. |
このような特殊な文構造には重要な情報が含まれることも多く、後続の文単位での情報抽出などがある場合には、その抽出精度に間接的に影響します。
法律ドメインのテキストを時系列モデルの学習器を使って学習させることで、これらドメインに特有の表現を考慮した文境界推定をより正確にできるようにしたのが本論文の概要になります。
検証方法
論文中では米国裁判所での判決文のデータセットjsavelka/sbd_adjudicatory_decに対し、下記の対応のように形態素ごとに文の頭か B
文中か I
文末か L
のタグがアノテーションされたデータを生成します。
そして、下記の判定モデルを用いてタグ判定を行っています
- Punktモデル : 自然言語処理ライブラリnltkに含まれるPunktSentenceTokenizerを用いたモデル(未学習/学習状態で精度を算出)
- 条件付き確率場モデル(CRF):各形態素から取得できる前後含む特徴量(後述)とBIOタグを用いて学習したモデル。sklearn_crfsuiteを利用
- 双方向LSTMモデル(Bi-LSTM) : 各形態素から取得できるword2vec特徴量にCRFモデルで用いたような特徴量を加えたものを元に学習したモデル。
CRF、Bi-LSTMで用いられる代表的な特徴量としては下記のようなものが用いられています。Appendixに詳細が記載されています。
- length : 文字列長、ただし4-6の場合normal, 6以上の場合long
- islower : 形態素がすべて小文字か
- isupper : 形態素がすべて大文字か
- istitle : 形態素先頭のみ大文字で他がすべて小文字か
- isdigit : 形態素がすべて数字か
検証結果
以下論文からの抜粋で、上から順に未学習Punktモデル, 学習済みPunktモデル、CRFモデル、Bi-LSTMモデルの結果になります。
Iタグは全体として数が多いため、比較対象としてIタグを除いたBLタグのみでの加重平均が赤字で記載されています。
ベースラインのPunktモデルとCRF、Bi-LSTMを比較するとPunktモデルの学習前後と比較してCRF、Bi-LSTMモデルは適合率についてPunktモデルより10ポイント以上の向上が見られます。
一方でCRFとBi-LSTMモデルにそこまで目立った差異はないように見られます。論文中では適合率についてCRFのほうが若干高めということで一番Performしたモデルと記載がありそれは確かにそうなのですが、CRFのモデルは比較的ヒューリスティックな特徴量を用いている関係もあって、word2vecで作成した特徴量のモデルと単純に比較できない側面もあるかなとは感じました。
おわりに
文章をどのような位置で区切るかという問題については仕事でも考える機会があり、どのような特徴量を取るかという部分については非常に参考になりそうな論文でした。
広告
この記事はMNTSQ勤務中に書かれた。
MNTSQは自然言語処理と法律に関心のあるエンジニアを募集しています。