2013年8月17日土曜日

KAGGLE

KAGGLEってご存知ですか? 

データ分析のコンペを行っている会社で、いろいろな会社がテーマとデータを提供し、それに対して参加者が機械学習のモデルを構築し、その精度を競い合うというものです。

先日、KAGGLEのChief ScientistのJeremy Howard氏がゲストスピーカーで来校して、いろいろとお話しされていたので、ホームページを見てみたところ、面白そう!!ということで、参加してみました。

KAGGLE
http://www.kaggle.com/



私が参加したのは以下の2つのコンペです。

・ Yelp(ぐるなびみたいなもの)のリコメンデーションシステムの精度コンペ
・ タイタニックの生存予測の精度コンペ



実際にやってみると、結構はまってしまいまして(あまりに楽しい・・・)、貴重な夏休みをほとんど使ってしまいました。まるで、テレビゲームにはまった子供状態です。


まだコンペの締切まで時間がありますが、夏休みの宿題をそろそろやり始めないとやばいので、心を鬼にしてRとPythonを閉じました。



このコンペを通じて、いくつか自分の中で考えないといけないことがあるなぁと思いましたので、忘れないようにまとめておきます。


課題その1
参加者平均はいくものの、そこから抜けられない。

両方のコンペでの課題です。この原因は2つあると思っていて、データ作り・特徴量づくりがイケてないのと、手法の習熟度が低いことです。特に前者が大きな問題だと思っています。

両方のコンペで、ランダムフォレスト、ニューラルネットワーク、rpartの決定木、ロジスティック回帰などいろいろ試しましたが、精度はランダムフォレスト、ニューラルネット、rpart概ね同じでした。インプットしているデータが判別に役立っていないからでしょう。

どうやって精度をあげていくか、アメリカにいる間に掴んでいきたいものです。


課題その2
モデルの評価をうまく整理できない。


たくさんモデルを作るなかで、「あれ、さっきのモデル、どの名前だったけ?」ということが起きて、時間をロスしました。

さらに、精度もRの打ちだしだけで見て確認して、終わり!ってやっていたので、あとで振り返ることができないという事態が発生。。。作成したモデルの管理、評価、改善点がどこかについて、うまく回せるようにしないと、効率悪くて仕方ないです。


結果は満足できないですが、いろいろと反省点や問題意識も持てたので、楽しい夏休みでした。


さぁ、マジでリーディングやらないと・・・・

0 件のコメント:

コメントを投稿