2014年1月23日木曜日

春学期 第3モジュールスタート!

今週から新学期!第3モジュールが始まりました。

このモジュールのラインナップはこんな感じです。

Business Strategies for Big Data(週2コマ)
先生は、あるゲーム会社のディレクターで元UCLA Andersonの先生だそうです。主にミクロ・マクロ経済の基礎、アカウンティング、ファイナンス、マーケティングをざーっとやるような感じのようです。このクラスは、MBAのビジネスマネージャーの話を理解できる(馬鹿にされない!)というのがゴールです。

Interview Skills(週1コマ)
Googleでデータサイエンスをやっていた先生が受け持ちます。サンフランシスコもしくはシリコンバレーにある会社に就職するとき、Tech interviewが最初のハードルです。Tech Interviewというのは、例えば「P値って何?」とか「Boostingの疑似コード書いてみて」みたいな質問です。いきなりはできないので、それに対応するための練習をする必要があります。このクラスは、その練習をひたすらやる!というのがゴールです。ちなみに、毎週、Mock Interviewをやります。

Text Mining(週2コマ)
Text Miningといいながら、前モジュールの機械学習の続きのような感じです。ひたすらPythonとRで機械学習のライブラリを呼び続ける!という感じでしょうか。ただ先生は代わって、元々応用数学の人なので、授業は結構数学オリエンテッドです。おそらくこの授業が本モジュールで最もハードになると思われます。

もちろん引き続き週2日のPracticum(企業実習、インターン)がありますので、このモジュールも寝る時間は相当削られそうですが、後半戦も元気にやっていきたいと思います。

2014年1月7日火曜日

Intersession SAS Programming スタート!

さて本日よりIntersession programのSAS Programming のコースが始まりました。このコースは、2週間後のSAS Base programmerの試験の合格を目指します(落ちると何度も受けなおさせられます・・・)。Rに慣れているので、SASは最初わかりにくかったですが、慣れるとふつう(失礼!)ですね。おそらく、R使いの方で、はじめてSASを扱う方は同じような印象を持つのではないでしょうか。

一番とっつきにくいのは、データの操作だと思いますが、その辺はSASのオンラインチュートリアルはわかりやすいと思います。
http://web.utk.edu/sas/OnlineTutor/1.2/en/60476/paths.htm

2014年1月5日日曜日

第2モジュールの振り返り

新年の初投稿です。あけましておめでとうございます。冬休みは一時帰国していましたが、元旦にサンフランシスコに戻ってきました。新年早々、第2モジュールの成績が明らかになってきています。ここらでいちど、第2モジュールの振り返りをしておきたいと思います。


Time Series Analysis for Business and Finance
以前にも書きましたが、第1モジュールでやった回帰分析の続きという位置づけです。自己回帰プロセス(AR process)、移動平均プロセス(MA process)に始まり、GARCHまでがカバー範囲です。授業が数学ヘビーでやりつつも、結構わかりやすく、ここまでのベストレクチャーでした。ただ、あくまで単変量のモデルでやるので、時系列分析入門といったところでしょうか。多変量のモデルも実務では必要となるときがあるでしょうから、そこは自習する必要があります。使用したソフトウェアは、RとSASです。

Machine Learning
カバーした機械学習のアルゴリズムは、
1. 決定木
2. ナイーブベイズ
3. KNN
4. サポートベクターマシーン
5. クラスター分析
6. アンサンブル学習(Random Forest, Bagging, Boosting)
7. アソシエーションルール
8. ニューラルネットワーク
とです。最後まで理論よりでした。アルゴリズムの中で何が起きているのかを理解することが主眼に置かれていたように思います。しかし、今思えば、そういう勉強の仕方は時間がないとできないので、良かったかもと思っています。また、ゲストスピーカーで、Jeremy Howord(KaggleのPresident兼チーフサイエンティストで数々のコンペで優勝)が彼の普段やるデータ分析のやり方などを聞く機会があったのはありがたかったです(この授業だけでなく、以前も来ています)。

Distributed Databases
MySQLのおさらいから、MongoDBでMapReduceの概念を勉強し、最後はAWSでHadoopの使い方、Hiveの使い方を学ぶというものでした。週1の授業でしたので、ざーっと流した感じです。しかし、私はWIndowsになんとかHadoop + Hiveをインストールしようとして一番時間かかったかも。。。

Practicum 1 
会社でインターンをするというもので、週2回出社、週20時間以上の時間と先生からは言われていましたが、もっと時間を使っていたような気がします。なにせデータの量も半端じゃないので処理するのに時間かかります。インターンで感じることは、データ分析で一番大事なことはやっぱり分析結果を使ってもらうことだということです。なので、データ利用者にどうやってわかりやすく説明するか、「お客さんはこんな感じではなからろうか?」とストーリーで話すことの重要性を改めて感じました。また、Take Awayをクリアにしてあげることも重要です。「棒グラフや表などでさえも読みたくない」というのがデータ利用者の本音なのだと感じます。まぁ、私にとっては、実際にアメリカで働いてみたかったので、この授業はありがたいです。

とこんな感じで第2モジュールは終わりました。結構勉強したなぁと思います。そして、週明けからはSAS集中講義があり、2週間後にSAS Base Programmerの試験を受けることになっています。これに受からないと受かるまでやらされる模様なので、一発で合格したいです。

残りは半年!後半戦もがんばらないと!