PHONE APPLI Engineer blog

エンジニアブログ

形態素解析器の違いで分かち書きに違いが出るのか実験してみた

こんにちは。株式会社 PHONE APPLI リサーチデベロップメント の松井です。
マルコフ連鎖による文章生成に使用する形態素解析器を選んでいたのですが、どれが良いかわからなかったので簡単な実験を行ってみました!

はじめに

マルコフ連鎖を使って文章生成するには、きれいに分かち書きされたデータが必要です。

ja.wikipedia.org

しかし、形態素解析器は分かち書きに特化して作られているわけではないため、解析機ごとに分かち書きの方法が異なります。

そのため今回は比較実験を行い、マルコフ連鎖に一番あっていそうな形態素解析機を調べてみました。

実験方法は、3つの形態素解析器を使って同じ文章を解析して分かち書きにどの程度違いが出ているのかを比較しました。

使用した形態素解析

Mecab

taku910.github.io

Sudachi

github.com

Juman++

nlp.ist.i.kyoto-u.ac.jp

使用した文章

専門用語が含まれていてある程度長さがある文章を実験で使用したかったので、今回は下記の文章を使用しました。

連絡先をクラウドで一元管理し、最適なツールで簡単にコミュニケーション取ることができるサービスです。 登録できるデータとしては、名前、電話番号の他、所属先(企業名、部署、グループ、役職などツリー表示)、メールアドレス、住所、FAX番号等が挙げられ、他アプリのアカウント、顔写真等も登録できるため便利に利用することができます。Web電話帳の特長として、共有用のアドレス帳と個人のアドレス帳が混在せず管理でき、部署ごとチームごとなど共有先を適切に設定できます。そして常に最新の状況に更新しやすい点がWeb電話帳の強みでもあります。 また、OCRで読み取った名刺情報を読み込める名刺管理サービスと一体となっているので、社内・社外のコミュニケーションがスムーズにとれます。

文章解析して分かち書きした結果

Mecab: 連絡/先/を/クラ/ウド/で/一元/管理/し/、/最適/な/ツール/で/簡単/に/コミュニケーション/取る/こと/が/できる/サービス/です/。/

Sudachi: 連絡先/を/クラウド/で/一元/管理/し/、/最適/な/ツール/で/簡単/に/コミュニケーション/取る/こと/が/できる/サービス/です/。/

Juman++: 連絡/先/を/クラウド/で/一/元/管理/し/、/最適な/ツール/で/簡単に/コミュニケーション/取る/こと/が/できる/サービス/です/。/


Mecab: 登録/できる/データ/として/は/、/名前/、/電話/番号/の/他/、/所属/先/(/企業/名/、/部署/、/グループ/、/役職/など/ツリー/表示/)/、/メールアドレス/、/住所/、/FAX/番号/等/が/挙げ/られ/、/他/アプリ/の/アカウント/、/顔/写真/等/も/登録/できる/ため/便利/に/利用/する/こと/が/でき/ます/。/

Sudachi: /登録/できる/データ/と/し/て/は/、/名前/、/電話/番号/の/他/、/所属先/(/企業名/、/部署/、/グループ/、/役職/など/ツリー/表示/)/、/メール/アドレス/、/住所/、/FAX/番号/等/が/挙げ/られ/、/他/アプリ/の/アカウント/、/顔写真/等/も/登録/できる/ため/便利/に/利用/する/こと/が/でき/ます/。/

Juman++: 登録/できる/データ/と/して/は/、/名前/、/電話/番号/の/他/、/所属/先/(/企業/名/、/部署/、/グループ/、/役職/など/ツリー/表示/)/、/メール/アドレス/、/住所/、/FAX/番号/等/が/挙げ/られ/、/他/アプリ/の/アカウント/、/顔写真/等/も/登録/できる/ため/便利に/利用/する/こと/が/でき/ます/。/


Mecab: Web/電話/帳/の/特長/として/、/共有/用/の/アドレス/帳/と/個人/の/アドレス/帳/が/混在/せ/ず/管理/でき/、/部署/ごと/チーム/ごと/など/共有/先/を/適切/に/設定/でき/ます/。/

Sudachi: Web/電話帳/の/特長/と/し/て/、/共有/用/の/アドレス帳/と/個人/の/アドレス帳/が/混在/せ/ず/管理/でき/、/部署/ごと/チーム/ごと/など/共有/先/を/適切/に/設定/でき/ます/。/

Juman++: Web/電話/帳/の/特長/と/して/、/共有/用/の/アドレス/帳/と/個人/の/アドレス/帳/が/混在/せ/ず/管理/でき/、/部署/ごと/チーム/ごと/など/共有/先/を/適切に/設定/でき/ます/。/


Mecab: そして/常に/最新/の/状況/に/更新/し/やすい/点/が/Web/電話/帳/の/強み/で/も/あり/ます/。/

Sudachi: そして/常/に/最新/の/状況/に/更新/し/やすい/点/が/Web/電話帳/の/強み/で/も/あり/ます/。/

Juman++: そして/常に/最新の/状況/に/更新/し/やすい/点/が/Web/電話/帳/の/強/み/で/も/あり/ます/。/


Mecab: また/、/OCR/で/読み取っ/た/名刺/情報/を/読み込める/名刺/管理/サービス/と/一体/と/なっ/て/いる/ので/、/社内/・/社外/の/コミュニケーション/が/スムーズ/に/とれ/ます/。/

Sudachi: また/、/OCR/で/読み取っ/た/名刺/情報/を/読み込める/名刺/管理/サービス/と/一体/と/なっ/て/いる/の/で/、/社内/・/社外/の/コミュニケーション/が/スムーズ/に/とれ/ます/。

Juman++: また/、/OCR/で/読み/取った/名刺/情報/を/読み/込める/名刺/管理/サービス/と/一体/と/なって/いる/ので/、/社/内/・/社外/の/コミュニケーション/が/スムーズに/とれ/ます/。


結果を比較してみると?

3つの分かち書き文章を比較してみると、解析器ごとに違いがそこそこ出ることがわかりました。

  • 「〜として」「ので」などの連語
  • 「メールアドレス」「電話帳」「顔写真」などの複合名詞

の分け方が解析器ごとに大きく異なっている点が、どの解析器を選ぶかのポイントになりそうです。

ちなみに「〜として」を調べてみた所、「〜/と/し/て」と分けるのが正しいみたいです。 なので、Sudachi だけが正確に「〜として」を分けることができるようです。

dictionary.goo.ne.jp

最後に

今回の実験結果から、Sudachi の連語と複合名詞の分け方がある程度のまとまりを持っていてマルコフ連鎖にあっていそうだなと思いました。

なので、文章生成に使用する形態素解析器は Sudachi を使おうと思います!

それでは〜


PHONE APPLIについて

phoneappli.net
phoneappli.net