# 第1章　仮説
# 第5節　分析上の諸注意
# 福元健太郎

############################################
# データ（2000年と1996年の総選挙）の読み込み
############################################

選挙データ <- read.csv("election.csv")
attach(選挙データ)

# 変数の作成
自民小選挙区得票率 <- 自民小選挙区得票数/投票者数
自民比例区得票率 <- 自民比例区得票数/投票者数

民主小選挙区得票率 <- 民主小選挙区得票数/投票者数
民主比例区得票率 <- 民主比例区得票数/投票者数

#############
# 多重共線性 

# 単回帰分析
回帰分析結果1 <- glm(自民小選挙区得票率 ~ 自民支持率)
summary(回帰分析結果1)
回帰分析結果2 <- glm(自民小選挙区得票率 ~ 民主支持率)
summary(回帰分析結果2)

# 重回帰分析
回帰分析結果3 <- glm(自民小選挙区得票率 ~ 自民支持率 + 民主支持率)
summary(回帰分析結果3)

# 多重共線性
回帰分析結果4 <- glm(自民支持率 ~ 民主支持率)
summary(回帰分析結果4)

# データ登録解除
# 次のデータを登録する前に
detach(選挙データ)

#################################################
# データ（1996-2005年の自民党世襲議員）の読み込み
#################################################

# 中川馨氏作成（2008年度受講生、使用許諾済）
世襲データ <- read.csv("dynasty.csv")

# 変数の直接参照
attach(世襲データ)

#########
# 交差項

#変数の作成
前回相対得票率_新人 <- 前回相対得票率*新人
前回相対得票率_新人_世襲 <- 前回相対得票率*新人*世襲新人地盤継承ダミー
候補者数の増減 <- 候補者数-前回候補者数

回帰分析結果5 <- glm(相対得票率~前回相対得票率+前回相対得票率_新人+前回相対得票率_新人_世襲+候補者数の増減+候補者年齢)
summary(回帰分析結果5)

detach(世襲データ)

############################################
# データ（医療政策）の読み込み
############################################

# 青柳圭祐氏作成（2006年度受講生、使用許諾済）
attach(read.csv("medicine.csv"))

################
# 因果的前後関係

# 単回帰分析
正しい回帰分析結果1 <- glm(生活保護割合 ~ 完全失業率)
summary(正しい回帰分析結果1)

誤った回帰分析結果1 <- glm(完全失業率 ~ 生活保護割合)
summary(誤った回帰分析結果1)

# 散布図
plot(完全失業率,生活保護割合)

# 正しい回帰直線
切片 <- 正しい回帰分析結果1$coef[1]
傾き <- 正しい回帰分析結果1$coef[2]
abline(切片,傾き)

# 誤った回帰直線
切片 <- -誤った回帰分析結果1$coef[1]/誤った回帰分析結果1$coef[2]
傾き <- 1/誤った回帰分析結果1$coef[2]
abline(切片,傾き,lty=2)
# lty(Line TYpeの意)を2とすると点線になる

# 縦軸と横軸を入れ替えた散布図
plot(生活保護割合,完全失業率)

# 先に誤った回帰直線
切片 <- 誤った回帰分析結果1$coef[1]
傾き <- 誤った回帰分析結果1$coef[2]
abline(切片,傾き,lty=2)

# 次に正しい回帰直線
切片 <- -正しい回帰分析結果1$coef[1]/正しい回帰分析結果1$coef[2]
傾き <- 1/正しい回帰分析結果1$coef[2]
abline(切片,傾き)

# 失業率が被説明変数になるのが正しい場合もある
正しい回帰分析結果2 <- glm(完全失業率 ~ 就職率)
summary(正しい回帰分析結果2)

###################
# 後知恵ダミー

# 棒グラフ
#　hはヒストグラムから来ている
plot(平均寿命男, type='h')
# 最低は青森

# ダミー変数の作成
青森 <- rep(0,47)
青森[都道府県=="青森"] <- 1

誤った回帰分析結果3 <- glm(平均寿命男 ~ 完全失業率 + 青森)
summary(誤った回帰分析結果3)

正しい回帰分析結果3 <- glm(平均寿命男 ~ 完全失業率 + 自殺者)
summary(正しい回帰分析結果3)






