日本語形態素解析をしようず

カテゴリ:PC
態素解析を知っとるかい?ワイはよう知らん。
 簡単に言えば「バナナを食べる」という文章があった場合

→バナナ(名詞) / を(助詞) / 食べる(動詞)

という感じに、まあなんというか文章を単語単位に分割する奴みたいね。
 詳しくはWikipedia見た方が早い。(リンク)

 なんとなくコレをプログラミングに使いたかったけどさ、こんなの作れと言われても何か月かかることか。ワイには難しいにもほどがある。けれど世の中には便利なものがあるもんで、文章を送れば形態素解析してくれるAPIがネットにはある訳ですよ。

 そんなわけでワイはyahooが提供している形態素解析APIを使わせてもらった。(リンク)
 上のリンクにあるとおりにリクエストを投げれば、XMLで結果が返ってくるのでそれを解析する感じやね。
 実際にどんなもんかは実行するツールを作ったんでそれを使ってみてくり。
サンプルツール

↓こんな感じの入力フォームになんか入力して「解析」ボタン押下


↓そうするとなんか出ます


 というわけで簡単にできるからみんなも使ってみてね。デベロッパー登録とかは必要だけど。
 あとちゃんとAPIの使用規則を読んでね。


の形態素解析は何に利用できるの?
 しらん。まあワイは以下の2つを作成して個人的に使っている。

1.Twitterオートブロックツール
2.質問箱ブロックツール

 ツイートや質問の文章を形態素解析して、単語ごとにポイント付けをし、一定のポイントを下回ったらブロックするとかそんな感じのツール。
 下の画像は質問箱ブロックツールの例で、下回ると文章とかが消えて「通報」ボタンのみが残るようにしている。
 機械学習とかで検知させたかったけどワイにはまだ無理やで。



 Twitterのツールはたまに暴発して関係ない人をブロックしてしまうから困る。直さなきゃなあ。

 おう、この記事書くためにググっていたらYahooのAPIは形態素解析以外にもいろいろあるね。(API一覧)
 「キーフレーズ抽出」とか「校正支援」のAPIとかさ。初めて知ったわ。「キーフレーズ抽出」はSEOにおいてKeywordsに設定する単語とかの解析に使えそうだし、「校正支援」はブログの誤字チェックとかに使えそうやね。
 後で時間が出来たら実装してみますかね。

以上

広告
広告

外部リンク

【酔拳使い】
マシュマロ
ニコニコ
Twitter
Pixiv

【折墓】
Twitter

リンク

 イラスト垂れ流し
 マンガ垂れ流し
 因数分解君
 スケール検索君
 形態素解析


TOP

Tweet

プライバシーポリシー | HOME | お問合わせ
copyright © since 2019 suikentsukai.