Kaggle 銅メダルへの道(3日目)
こんにちは、筋肉めがねです。
前回の記事では英語の勉強方法について、シャドーウィングという方法を使っていたと書きました。では、ドイツ語の勉強でシャドーウィングを使っていきたいんだけれども、どのマテリアルを使えば良いのか迷いますよね。僕のオススメはDeutsche Welleです。LEARN GERMAN直下のDeutsch Aktuellにスクリプト付きの動画が沢山あります。それを使ってドイツ語を勉強していきましょう。
それでは、本日もKaggleで銅メダルを取ることを目指して一つ一つ進めていきましょう。前回はKaggleからダウンロードしたデータをGoogle Driveに格納し、Google ColaboratoryからGoogle Driveへ格納したファイルを操作できるように環境を構築しました。
前回の記事で書いた通り、KaggleのCompetitionを進める上での流れは、大まかに以下の通りである、と書きました。
- 動作環境の構築
- KaggleからCompetitionデータを取得
- データ概要の把握、重複の確認
- 外れ値の削除
- 前処理:欠損値処理
- 前処理:変数変換
- 目的変数の分布の確認、処理
- 特徴量の選択
- 機械学習
- モデルをKaggleへ提出
本日は、3. データの概要の把握と4. 外れ値の削除まで進めます。
参考にしているのは、こちらのブログでございます。
A study on Regression applied to the Ames dataset | Kaggle
データ概要の把握
先ず、データを操作する前に、前回構築したGoogle Colaboratory上の環境に必要なライブラリをインストールします。
続いて訓練データの内容を見ていきます。
結果、1460行の物件があり、そしてIDを含めて81のカラム(情報の数)がある事がわかります。
そして、リストアップされている物件の中で重複があるかどうか、確認します。
重複はありませんでした。重複がない事が確認できたので、IDカラムは必要ありません。IDカラムを削除しましょう。
外れ値の削除
続いて外れ値を削除します。KaggleのHouse Pricing competitionへデータを提供した方の書いたオリジナルの文献によると、GrLivArea(床面積)が4000 square feet (371.6平米)以上の5つのデータのうち、3つは外れ値であり、2つは他のデータ群からはかけ離れた数値であるため、モデルを作るための訓練データとしては適切でない、とあります。よって、それらを訓練データから取りましょう。
http://jse.amstat.org/v19n3/decock.pdf
先ず、外れ値を削除する前に、1460の物件について、床面積と売価でプロットしたグラフを描画します。
続いて、床面積が4000 square meter(371.6平米)以上の5つのデータを取り除きます。
そして、改めて全ての物件について、床面積と売価でプロットしたグラフを描画します。
外れ値が除かれている事を確認できました。
次回の記事では、欠損値の処理から進めます。
それでは、本日は以上でございます。