Typographical_Search

こんにはEveryDaySoft代表の永田です。

ここ3日間の連休中は断食をしました。身体が軽くなり、感覚が少し研ぎ澄まされた感はありますが、もう少し体内のオートファジーを利用して、体内臓器をリフレッシュする必要が体重的にもあるような気がするので、もう数日実施しようと思います。

現在は大きく2軸の内容で技術を進めています。一つは文字系、もう一つは配信系です。配信系は案件で実施しているので、休みの間に文字系のデータ分析を進めています。

今回取り上げる内容は、誤字検索をして補正する機能を作成したいと思いました。データ分析という項目を進める上で、誤字検索という部分を進めれたら、様々なデータ分析を出来ると考えたからです。

今回進めた際の参考資料

https://images-na.ssl-images-amazon.com/images/I/51hk+5bKNrL.SX352_BO1,204,203,200.jpg

https://github.com/oreilly-japan/automatestuff-ja

このテーマから取得した技術は

  • ネットにある文章を評価データとする配列プログラム
  • 自身が書いた文章を評価するための配列プログラム

評価する、されるデータを検索実施で該当するか、しないかで判定している形です。検索時間はpythonでは一瞬でできるようでした。

意味合いごとに要素にしました。

使用した技術は、Pythonの正規表現操作re janomeで配列プログラム作成です。

漢字や、カタカナ、英語などは評価データを増やせば簡単ですが、 〜をなどの意味合いが正しいかという文面を評価させるには人工知能の力が必要のようです。

なので人工知能に学習させる前準備のデータ用意のノウハウを今回作成した形なので、次回は人工知能に学習させる事を実施していきたいと思います。

以上、貴重なお時間お読み下さいまして、誠にありがとうございます。