ドイツの物件情報分析(初日)
こんにちは、筋肉めがねです。
さて、2月1日に日欧EPAが施行されました。EUから日本へ輸出した商品に対しては、日本側でこれまでかかっていた関税を約94%撤廃する、との事、そして日本の商品をEUへ輸入した際に、これまでかかっていた関税については、約99%撤廃する、との事です。例えば、醤油については、現行7.7%の関税がかかっているところ、即時撤廃となる、と。そして、お酒類についても即時撤廃となる、という事です。すでに、税関を通過してドイツに入ってきているモノについては、対象外ではあるでしょうが、これからドイツに輸入されるそれらの商品については、関税がかからない、という事ですね。そして、関税がかからない、という事はこれまで税関にかかっていた時間までも短縮される、という事でしょうか。近いうちに、日本食ラーメン店へ行ってみようかと思います。少し安くて、それでいて新鮮な具材の入ったラーメンが食べれる事を期待して。
さて、3月末までにKaggleでメダルを取る、という目標に向けて粛々と進めていくべきなんですけれども、少しだけ寄り道してみましょう。
Kaggleではじめて参加したCompetitionがHouse Pricesに関わるものだったんですけれども、では僕が住んでいるドイツの住宅事情はどうなのよ、というところが気になるところであります。ということで、ドイツの物件情報を集め、整理して、どんな事が分かるのか分析してみましょう。
ドイツの物件情報を集めるために使用するサイトは、ドイツでは最も有名なサイトの一つであるImmobilienscout24です。Immobilienscout24を使用してデータを集めるわけですが、マニュアルで1つ1つの物件の情報をエクセルに転記していく、という作業をしていくと日が暮れます。そこで、スクレイピング、という技術を使います。コードを使って、自動でサイトの情報を取得する手法ですね。
スクレイピングとは、あるサイトに一定の回数、一定の間隔を空けてアクセスし、必要な情報を取得する、という技術です。企業が収集した情報を参考にする、という事ですから、気をつけなければいけない事もあります。それは、断じて商業用途に使ってはいけない、という事、あくまで私的な利用に限定する、と同時に、企業側のサーバーに負担にならない程度の低負荷でサイトにアクセスする必要がある、という事です。
では、スクレイピングを実装していきましょう。
コードは、以下の記事を参考にして書きました。
スクレイピングのMax時間を6時間とし、30秒の時間を置いて次の物件の情報を取得するよう設定しました。
結果、10,587件の物件情報を取得する事ができました。 分析をするには十分な量のデータですね。
先ずは、KaggleのHousing priceでも実施した通り、purchase priceとliving spaceの相関を取ってみましょう。
縦軸は、k EURで、横軸は平米です。パッと見、単位がおかしいように見えますが、実はこれが正しいんですね。1Mil EUR以上の物件が山ほどありますね。それらの物件はセレブに任せるとして、それ以下の物件のみフィルターをかけましょう。そして、living spaceが400平米以下の物件に的を絞りましょう。
もう少し絞りましょうか。Purchase Priceを600k EUR以下に、living spaceを250平米以下に絞りましょう。
この段階で、どれだけの物件数があるのか調べてみましょう。
9,097件、オリジナルのデータと比較すると1,490件減りました。
これらのデータを使って、色々と分析してみましょう。
Kaggleも進めないといけませんね。
それでは、本日は以上でございます。