データサイエンティストになるためのアメリカ西海岸留学日記-MS in Analytics-: 第2モジュールの振り返り

新年の初投稿です。あけましておめでとうございます。冬休みは一時帰国していましたが、元旦にサンフランシスコに戻ってきました。新年早々、第2モジュールの成績が明らかになってきています。ここらでいちど、第2モジュールの振り返りをしておきたいと思います。

Time Series Analysis for Business and Finance
以前にも書きましたが、第1モジュールでやった回帰分析の続きという位置づけです。自己回帰プロセス（AR process)、移動平均プロセス（MA process）に始まり、GARCHまでがカバー範囲です。授業が数学ヘビーでやりつつも、結構わかりやすく、ここまでのベストレクチャーでした。ただ、あくまで単変量のモデルでやるので、時系列分析入門といったところでしょうか。多変量のモデルも実務では必要となるときがあるでしょうから、そこは自習する必要があります。使用したソフトウェアは、RとSASです。

Machine Learning
カバーした機械学習のアルゴリズムは、
1. 決定木
2. ナイーブベイズ
3. KNN
4. サポートベクターマシーン
5. クラスター分析
6. アンサンブル学習（Random Forest, Bagging, Boosting)
7. アソシエーションルール
8. ニューラルネットワーク
とです。最後まで理論よりでした。アルゴリズムの中で何が起きているのかを理解することが主眼に置かれていたように思います。しかし、今思えば、そういう勉強の仕方は時間がないとできないので、良かったかもと思っています。また、ゲストスピーカーで、Jeremy Howord（KaggleのPresident兼チーフサイエンティストで数々のコンペで優勝）が彼の普段やるデータ分析のやり方などを聞く機会があったのはありがたかったです（この授業だけでなく、以前も来ています）。

Distributed Databases

MySQLのおさらいから、MongoDBでMapReduceの概念を勉強し、最後はAWSでHadoopの使い方、Hiveの使い方を学ぶというものでした。週1の授業でしたので、ざーっと流した感じです。しかし、私はWIndowsになんとかHadoop + Hiveをインストールしようとして一番時間かかったかも。。。

Practicum 1

会社でインターンをするというもので、週2回出社、週20時間以上の時間と先生からは言われていましたが、もっと時間を使っていたような気がします。なにせデータの量も半端じゃないので処理するのに時間かかります。インターンで感じることは、データ分析で一番大事なことはやっぱり分析結果を使ってもらうことだということです。なので、データ利用者にどうやってわかりやすく説明するか、「お客さんはこんな感じではなからろうか？」とストーリーで話すことの重要性を改めて感じました。また、Take Awayをクリアにしてあげることも重要です。「棒グラフや表などでさえも読みたくない」というのがデータ利用者の本音なのだと感じます。まぁ、私にとっては、実際にアメリカで働いてみたかったので、この授業はありがたいです。

とこんな感じで第2モジュールは終わりました。結構勉強したなぁと思います。そして、週明けからはSAS集中講義があり、2週間後にSAS Base Programmerの試験を受けることになっています。これに受からないと受かるまでやらされる模様なので、一発で合格したいです。

残りは半年！後半戦もがんばらないと！

データサイエンティストになるためのアメリカ西海岸留学日記-MS in Analytics-

2014年1月5日日曜日

第2モジュールの振り返り

0 件のコメント:

コメントを投稿