Kaggle 銅メダルへの道(4日目)

こんにちは、筋肉めがねです。

 

SchwarzwaldのFeldbergにハイキングに行ってまいりました。寒い中、体が強張りながらも、まつぼっくりちゃんと一歩一歩踏みしめて参りました。山を歩く、登るというのは、その後の達成感も含めて、いつになっても良いものですね。歴史的な登山家と呼ばれたジョージマロリーは「なぜエベレストに登りたいのか。」と記者に質問され、「そこに山があるからだ。」と答えた事はとても有名ですが、それほどまでに登山する事にまっすぐになれる気持ちはとても清々しいですね。

f:id:KinnikuMegane:20190114060415j:plain


それでは、本日もKaggleで銅メダルを取るために一つ一つ進めていきましょう。

 

前回の記事では、KaggleのHouse Prices competitionについて、データ概要の把握、重複の確認、および外れ値の削除を行いました。このまま、前処理の一つである欠損値の処理に進んでも良いのですが、いかんせん僕がこのHouse pricesのcompetitionで与えられているデータについて、十分な理解ができておりません。

そこで、以下のKernelを参考にしながら、同competitionで与えられている80個の条件を一つ一つ理解し、各々の条件とHouse priceに相関がありそうかどうか、主観で目星をつけてみました。

ニューラルネットワークを訓練していく上で、どのデータを利用して訓練していくかがとても重要になります。例えば、物件の売価と全く関係のありそうのないデータ(e.g. 家具の色)を利用して、ニューラルネットワークを訓練しても精度の高いモデルはできそうにないですよね。

www.kaggle.com

 

具体的にどういう作業をしたか、というと、エクセルに一つ一つ条件を書き込み、それぞれに対して売価と相関が高いかどうか、High, Medium, Lowとカテゴライズしていきました。

f:id:KinnikuMegane:20190114055916p:plain

 

主観ではございますが、結果、以下の20個の条件については、売価と相関がありそうである、と判断しました。

LotArea: 敷地面積

LandContour: 物件の床がどれぐらい平坦がどうか。

Utilities: 水道、ガス、電気などの設備状況

HouseStyle: 1階建て、2階建て、など物件の形

OverallQual: 物件に使われている部材、および物件それ自体の質

OverallCond:  物件全体のコンディション

Foundation: 物件の土台(例:コンクリート)

TotalBsmtSF: 地下階の床面積

1stFlrSF: 1階の床面積

2ndFlrSF: 2階の床面積

GrLivArea: 居住スペースの床面積

FullBath: 浴室の数

BedroomAbvGr: 寝室の数

KitchenAbvGr: キッチンの数

TotRmsAbvGrd: 部屋の数

GarageType: ガレージのタイプ(例:物件に併設しているか)

GarageArea: ガレージの床面積

MoSold: 物件が売りに出された月

YrSold: 物件が売りに出された年

Sale Type: 販売のタイプ(例:保証がついているか)

 

そして、ここからが楽しいお絵かきの時間でございます。

先のexcersizeで、売価と相関がありそうである、と判断した各々の条件について、実際に売価との相関をグラフにプロットして見ていきましょう。

以下、20個の条件と売価の相関です。

全て縦軸が売価でございます。

 

LotArea: 敷地面積

f:id:KinnikuMegane:20190114074639p:plain 

LandContour: 物件の床がどれぐらい平坦がどうか。

f:id:KinnikuMegane:20190114074725p:plain

Utilities: 水道、ガス、電気などの設備状況 

f:id:KinnikuMegane:20190114075011p:plain

HouseStyle: 1階建て、2階建て、など物件の形

f:id:KinnikuMegane:20190114075048p:plain

OverallQual: 物件に使われている部材、および物件それ自体の質

f:id:KinnikuMegane:20190114075127p:plain

OverallCond:  物件全体のコンディション

f:id:KinnikuMegane:20190114075153p:plain

Foundation: 物件の土台(例:コンクリート)

f:id:KinnikuMegane:20190114075258p:plain

TotalBsmtSF: 地下階の床面積

f:id:KinnikuMegane:20190114075409p:plain

1stFlrSF: 1階の床面積

f:id:KinnikuMegane:20190114081734p:plain

2ndFlrSF: 2階の床面積

f:id:KinnikuMegane:20190114081803p:plain

GrLivArea: 居住スペースの床面積f:id:KinnikuMegane:20190106211105p:plain

FullBath: 浴室の数

f:id:KinnikuMegane:20190114081922p:plain

BedroomAbvGr: 寝室の数

f:id:KinnikuMegane:20190114081958p:plain

KitchenAbvGr: キッチンの数

f:id:KinnikuMegane:20190114082032p:plain

TotRmsAbvGrd: 部屋の数

f:id:KinnikuMegane:20190114082107p:plain

GarageType: ガレージのタイプ(例:物件に併設しているか)

f:id:KinnikuMegane:20190114082249p:plain

GarageArea: ガレージの床面積

f:id:KinnikuMegane:20190114082223p:plain

MoSold: 物件が売りに出された月

f:id:KinnikuMegane:20190114082402p:plain

YrSold: 物件が売りに出された年

f:id:KinnikuMegane:20190114082443p:plain

SaleType: 販売のタイプ(例:保証がついているか)

f:id:KinnikuMegane:20190114082644p:plain

 

データをプロットしてみると色々と分かる事がありますね。例えば、Utilitiesについては、ほぼ全ての物件で電気、ガス、水道の設備が整っている、という事が分かり、一方で、この情報と売価に相関関係はない、という事が分かります。

 

これら20個の条件のうち、以下の条件については売価との相関関係がありそうなので、それらについて、次の記事で前処理を進めていきましょう。

OverallQual

1stFlrSF

GrLivArea

FullBath

 

それでは、本日は以上でございます。

にほんブログ村 IT技術ブログへ
にほんブログ村



Pythonランキング