機械学習系の調査_実装の紹介

2020年8月26日

こんにちはEvery Day Soft 代表の永田です。

今回はこちらの勉強会で、日頃の調査している内容を登壇させていただきます。
https://love-swift.connpass.com/event/186241/?utm_campaign=event_participate_to_follower&utm_source=notifications&utm_medium=twitter

調査のモチベーション
https://developer.apple.com/jp/machine-learning/
紹介されているソースを見るとPythonがあり、なので、Pythonで着手しています。
https://github.com/huggingface/transformers

最初にiOSの機能でOCRなどを調査。

https://twitter.com/dbank0208/status/1294464718384447488?s=20

GitHubのissueでiOSのVisionAPIを調査内容を管理して、簡単に確認できるようにしつつ、理解を深めるような環境を整えています。

リアルタイムでの文字の読み取りの精度はあまり良くなく、撮影した写真の内容だったりすると読み込みの精度は上がりました。それとVNDocumentCameraViewControllerの機能でAppleのデフォルトの動作がありますが、画像のトリミング、UXの動作など、動画の挙動のように決まっている状態です。ここで考えたのは精度を上げるにはAPIからの取得の方が良いのではないか？という事になります。

試そうと思っているAPI Google Cloud これは今後確認します。APIhttps://cloud.google.com/vision/docs/ocr?hl=ja

翻訳する機能は、機械学習のサービスを提供していて、開発者が手軽に使用できるようになっていました。

https://cloud.google.com/translate/docs?hl=ja

https://twitter.com/dbank0208/status/1295361073843810305?s=20

画像を検索して、取得し、画像を機械学習で判定なども調査しました。
PythonとAWSを使用して、画像検索、URLを作成し、検索枚数と検索内容に応じて、
配列に取得できます。その後、アプリ側で取得するようなロジックを確認後、 Googleの Vision APIの機械学習で画像を読み込む挙動などを確認しました。

https://twitter.com/dbank0208/status/1297122654101491712?s=20

https://twitter.com/dbank0208/status/1297470278864314369?s=20

https://t.co/KWTLlAp7WJ

AWSではなく、Firebaseで出来るようだ。
— DaisukeNagata (@dbank0208) August 23, 2020

https://twitter.com/dbank0208/status/1297544038619308032?s=20

色々確認後、チャット機能で即時翻訳できると便利だと思い作成しました。これを応用して、文字起こし、音声翻訳などを実装してくと拡張性が上がると思います。

https://twitter.com/dbank0208/status/1298367584773926913?s=20

まとめ。APIを使用しつつ、アプリケーションを実装すると様々に機械学習を試せて、アプリケーションではどのような挙動になるか、アプリケーションでした方が良いこと。APIでした方が良いことが要件定義、工数見積もり、上流、下流と詳細まで理解できるようになります。毎日開発をしていたら、どれも30分などで出来るのでサクサク進みました。今後はサービスとして出来るような部分まで昇華していきます。

以上、貴重なお時間お読みくださいまして、誠にありがとうございます。