演習(4年生)
経済関連WEBデータのテキストマイニング―
022-B-400

担 当 者 単 位 数 配当年次 学 期 曜 日 時 限
白田 由香利 教授 2 4 第2学期 2

授業概要

白田ゼミでは,地震などの自然災害が日本の企業にどのような影響を及ぼすかを分析しています.たとえば,東日本大震災, 2011年のタイの洪水などがあります.その他,VW社の事件のような災害の影響も分析対象としています.手法は,東証株価からのリターン値分析と,WEB上のテキストデータのマイニングの2つのアプローチで行います.株価分析は,現在主に,相関行列のSVD(Singular Value Decomposition)を使っています.これは,経済物理学の手法で,「ランダム行列理論とポートフォリオ」分析として知られています.リターン値の時系列データの相関行列に対して,SVDを行ない,銘柄の相関構造を調べます.同じ固有ベクトルの中で,予想していなかった企業間の関連を発見することが研究としての面白さです.「予期していない」関連というのは,人によって違います.専門家であれば知識も豊富で,A社とB社の関連を既に知っていたかもしれませんが,殆どの人は知らなかった,そういう関連を探す,ということです.通常,株価のアナリストは,自分の対象とする分野の銘柄だけを分析調査しています.それよりも広い視野で企業間の関連を見るのは,ストラテジストの仕事です.SVDの分析は,このストラテジストの仕事に相当するものでしょう.しかし,その関連が本当であるか否かは,株価の分析だけではわかりません.さらに,企業に関する文書をテキストマイニングすることで,関連の有無を調べます.対象文書は,四季報などの文章などです.白田ゼミでは,LDA (潜在的ディリクレ配置)モデル等を使ったテキストマイニングを行っています.相関行列SVDで候補を探し,テキストマイニングで確認する,この2段階手法で精度を上げます.  
 
プレゼン発表の回数が多いです.プレゼンは,将来,海外で活躍できるように,英語で行ってもかまいません.日本語発表同様に,英語の発表の仕方も,丁寧に指導しています. 
技術的ハードルは高いかもしれませんが,気が付いてみると,ITスキルが大きく伸びていることでしょう. 

到達目標

テキストマイニングでトピックの時系列変化分析ができるようになる。
経済英語の表現が使えるようになる。

授業計画

1 オリエンテーション
2 mathematicaの入門(1)
3 mathematicaの入門(2)
4 mathematicaによる株価分析(1)
5 mathematicaによる株価分析(2)
6 EOL講習会
7 SNSメッセージからのトピック分析:店への感想データ
8 トピック抽出演習(1)
9 トピック抽出演習(2)
10 word2vecによる分析(1)
11 word2vecによる分析(2)
12 word2vecによる分析(3)
13 個人またはグループによるプレゼンテーション
14
15 まとめ

授業方法

以下のURLにゼミで作成したグラフがあります。http://www-cc.gakushuin.ac.jp/~20010570/ASIA/  ,
http://www-cc.gakushuin.ac.jp/~20010570/SHINSAI/kawase/src/2012semi/
このようなグラフィクスを描きます。

準備学習

準備は不要ですが、講義で出された課題をやってきてください。講義後、その日のうちにすぐにノートを読み直して分からない箇所を明確にすること(約30分)。

成績評価の方法

レポート:50%
平常点(クラス参加、グループ作業の成果等):50%
課題レポートと、複数回の発表の内容を重視します。

履修上の注意

履修者数制限あり。
第1回目の授業に必ず出席のこと。

その他

白田のWebに各種教材が載っています。http://www-cc.gakushuin.ac.jp/~20010570/