みやびの技術メモ

技術的な面でちょこっと手間取ったところを置いておきたいなぁ・・・。いろいろと間違いがあると思うので注意。

rubyでmecabを使う用のライブラリのようなものを書いてみた

この記事はほとんど私用です。

rubytwitter用のbotを作ったので、それに使おうということで機能が一般に使う向けではない気がします。

 

keyword check

こんな感じで作ってみました。

find_word(text,path)
入力されたtextを形態素解析して、名詞を抽出します。
抽出した名詞はlogfileに保存されます。
また、抽出した名詞がpathで示されたfileの中に存在するか検証して、
存在する場合にはture,存在しない場合にはfalseを返します。

find_max(path)
word times(wordは単語自体、timesは数字)
というフォーマットに沿った形式の.txtで示されたファイルを読み込んで、
timesが最も大きいwordの長さとtimes自体を返します。(リスト型)

find_min(path)
上記の最小バージョン

clean_word(path)
pathで示されたlogfileのフォーマットを揃えます。
長すぎる単語、アルファベットや数字を除外し、
重複する単語を一つにまとめます。