用R语言对上海市链家二手房数据分析

您所在的位置:网站首页 上海市链家二手房 用R语言对上海市链家二手房数据分析

用R语言对上海市链家二手房数据分析

2024-07-16 08:39| 来源: 网络整理| 查看: 265

在此思考一下,一个房子应该值什么价?这个价值怎样衡量?最简单的,使用人民币衡量。为什么我国房地产在过去的十几年里如日中天?因为这十几年来国民的购买力增长着实可观。而我们也知道,人民币是一般等价物,是一种特殊的商品,如果我们把人民币换成其他的商品呢?猪肉、白菜、衣服甚至股票、基金、外汇、黄金、期货等等等等,这些东西都可以用人民币兑换,那么我们用房价来兑换这些商品,又会获得怎样的结果?2015年年初到年中的股票牛市,使用人民币在股市中投资的收益是可以远大于投资房地产的,那么这个时候,房价对于你来说其实就是下跌了。同样,如果你在2015年6月至现在选择了投资股票的话,房价对你来说真的就是“涨到天上去了”。我经常能听到这样的感慨:“早知道房价这么涨,10年前说什么也要贷款买房子。”俗话说,种一棵树最好的时间是10年前,其次是现在。我想问问,今天有多少人敢把自己的全部家当做投资,赌10年后的收益?我们要认识到,在我们之中其实没有多少人有这样的眼光和胆识,同样10年前能想到用买房投资的人,要么真的相信房价能涨,要么输得起真的不在乎那么点钱,那么这种人和现在在买房投资的人又有什么区别?以前投资房地产现在暴富的人,他们的今天都是用眼光和胆识换来的,如果你相信这只是运气好的话,何不带上你的梦想和存款去澳门走一遭?我相信把房地产作为投资品的人还是少数,在过去现在和未来,买房的人最普遍的心态还是——想买,而且也买得起。

我认为分析房价的涨跌是徒劳的,长期来看房价变化都应该略高于社会的普遍购买力,我们只看到日本房价大崩盘,但在房价崩盘之前,日本的国民经济已经崩盘了。房价的走势难以预测,但你总能预测下自己将来的购买力相对于社会平均水平到底是怎么个变化吧?要是连自己几斤几两都不知道,还要去预测国民经济的走向,是不是太想当然了点?例如你提升了自己的工作能力,升职加薪了,你的购买力提升了,房价相对来说就下跌了,所以这里投资收益大于房价的,正是你自己的工作技能。所谓水涨船高,其实我们只看到房价这个船在涨,有时候我们都忘了我们自己也泡在水里,水再涨,我们想上船(买房)的难度其实是没有变化的。这里的水,正是当地的经济发展水平,因为在用人民币衡量房价的基础下,经济振奋,国民购买力上升,房价涨;经济萎靡,国民购买力下降,房价跌。要么你在经济上行的时候跑的比别人快,要么在经济下行的时候摔得比别人轻,如果你的购买力变化仅仅取决于社会整体财富水平的涨跌的话,现在买不起的房子,以后任何时候你一样买不起。说到这里不得不说说财富分配的问题了,最近在知乎上被热议的4万亿计划很大的一个问题就是这4万亿的水没有分流,被大量的集中在了少数的几个领域,并没有广泛地提高全社会的财富水平,反而拉大了贫富差距。对于光见房价涨不见工资涨的状况,症结在于这经济发展的“水”,没有流到你所在的行业,你和这个船不在一个池子里。前几年盛行“跑赢CPI”的说法,如果说收入能跑赢CPI算是对能力的肯定,那么收入跑赢房价,那这个房子确实是你应得的回报。

所以总结一下吧,对于想买房改善生活的各位,分各种情况来给出点建议:

1.现在的房价对你来说没有压力,那么早买早享受,直接一步到位买买得起的范围内最好的。

2.你现在有足够支付首付的资金,也有偿还月供的能力,同时你没有明确的投资途径能让这笔资金的增值速度快于房市,但是工作稳定将来有一定的上升空间,那么买。

3. 你现在有支付首付的资金,但是你有投资的打算并且认为投资的回报能大于房价的增长,那么投资。但是要注意一点,我举个例子,按照现在首套房30%的首付比例来说,你有90万本金,目标是购买300万的房子,如果1年后房价上涨10%,那么90万的资金在这个时间内的收益必须同样达到10%以上,否则就失去了购房的资格了,同时在此期间你的月收入也要达到10%的增长才能实现购买力增长大于房价增长。房价年增长10%在上海太过常见,对于现在国内的投资环境来说,年化收益在10%应该是中高风险了。在这样的资产配置下,千万不要再盼房价跌了,此时房价一跌,经济环境不知道要恶劣到什么程度,这本金恐怕贬值速度也要快于房价了。当然,如果投资的本金翻倍,但购房的目标没变的话,年化收益就只要达到5%即可,这算是一个可控的风险程度了。不过这应该比较接近情况1这种压力不大的情况,买或不买,取决于自己的需求有多迫切。

4.最后说个比较悲剧的情况,如果你目前没有支付首付的能力,同时你没能让自己年收入净增长在房价的净增长之上,可能你真的是这个城市希望筛除的对象……

本文从如下几个角度详细讲解数据分析的流程:

1、数据源的获取;

2、数据探索与清洗;

3、模型构建(聚类算法和线性回归);

4、模型预测;

5、模型评估;

一、数据源的获取

正如本文的题目一样,我要分析的是上海二手房数据,我想看看哪些因素会影响房价?哪些房源可以归为一类?我该如何预测二手房的价格?可我手上没有这样的数据样本,我该如何回答上面的问题呢?

互联网时代,网络信息那么发达,信息量那么庞大,随便找点数据就够喝一壶了。前几期我们已经讲过了如何从互联网中抓取信息,采用Python这个灵活而便捷的工具完成爬虫,

当然,上海二手房的数据仍然是通过爬虫获取的,爬取的平台来自于链家,页面是这样的:

我所需要抓取下来的数据就是红框中的内容,即上海各个区域下每套二手房的小区名称、户型、面积、所属区域、楼层、朝向、售价及单价。先截几张Python爬虫的代码,源代码和数据分析代码写在文后的链接中,如需下载可以

回复公众号“二手房”获取下载链接。

上面图中的代码是构造所有需要爬虫的链接。

上面图中的代码是爬取指定字段的内容。

爬下来的数据是长这样的(总共28000多套二手房):

二、数据探索与清洗(一下均以R语言实现)

当数据抓下来后,按照惯例,需要对数据做一个探索性分析,即了解我的数据都长成什么样子。

1、户型分布

# 户型分布

library(ggplot2)

type_freq



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3