用Python进行数据分析,就要掌握什么技术? |
您所在的位置:网站首页 › 为什么要用python语言进行数据分析 › 用Python进行数据分析,就要掌握什么技术? |
文章目录
一、消除误解二、数据分析之Python基础三、数据分析之书籍推荐数据分析类书籍推荐:产品思维类:
四、【重要】有关数据分析的Python库4.1 NumPy4.2 Pandas4.3 Matplotlib4.4 Scipy4.5 StatsModels
四、总结
本文是针对数据分析写的Python教程,文章内容针对以下初学者遇到的问题: 需要学多久的Python? 需要学到什么程度的Python? 学Python的最优课程和书籍有什么? 为了处理数据集,我需要精通Python吗? 在开始正式的分享之前我们先来看一下,数据分析的工作流程: 很多人因为想做数据分析,从而开始了python的编程学习,每天沉迷于代码和书籍之间。但是最后发现学到的只是python用于软件的开发,并非是数据分析。 Python实际针对数据分析的学习是库,用库来解决一系列的数据分析问题。所以建议就是数据分析方向并没有必要精通Pythn。 实际的学习Python过程就是: 掌握Python基础; 学习Numpy; 学习Pandas 学习Matplib 建议是掌握Python基础之后按照上述顺序进行库的学习,很多人会还没学好一个,就进入下一个从而导致学习失败。 二、数据分析之Python基础至于Python基础需要掌握什么,请大家对照图片的基础和链接当中的课程进行规划和学习,建议Python基础如果你每天学习时间比较多,超过3小时的话,学习时长为20天内之内。少于三小时按照进度以此类推。 其次就是机器学习相关知识大家也是要掌握的,不需要你明白推导公式是怎么推的,但是原理要知道。 三、数据分析之书籍推荐提醒一下,不要买数据分析的工具书,所有工具书的内容都可以百度一下解决,一般来说工具书的内容也比较浅显。建议大家选择实战类书籍,毕竟数据分析也离不开实战。 数据分析类书籍推荐:《增长黑客》《社会调查设计与数据分析》(这本墙裂推荐,理论+实际,让我们有效学习)《深入浅出数据分析》 产品思维类:建议大家听《梁宁的产品课》 本文上述内容均适合0-3年的数据分析师,如果你想进阶的话,还要学好数学、统计学、数据挖掘。回答这篇内容的时候,也看了很多人整理的内容,看到一份还不错比较全面的分享给大家: 图片来源于CSDN,傅一平 书籍和知识体系都分析完了,最后身为数据分析师的你们,一定要知道实战真的很重要。但是大家基本都苦于,哪找数据去?哪找实战去?我们可以去打比赛,打比赛也可以让我们对数据有一定的理解,更深入到业务。平台:Kaggle、阿里天池、DataFountain; 四、【重要】有关数据分析的Python库 4.1 NumPy这是最常用的数据分析库了,准确来说是一个数学计算库,包括我们刚刚提到的Pandas也是依赖于Numpy的。 我们需要学习的内容是了解NumPy 知道数组的属性、形状和类型 应用Numpy实现数组的基本操作 应用随机数组的创建实现正态分布应用 应用Numpy实现数组的逻辑运算 应用Numpy实现数组的统计运算 应用Numpy实现数组之间的运算 4.2 Pandas这是为了数据建模分析而生的工具库,内含许多的数据模型,也有很多其他库的优势。学习顺序就是先学NumPy在来学Pandas,需要学习知识点如下: 了解Numpy与Pandas的不同 说明Pandas的Series与Dataframe两种结构的区别 了解Pandas的MultiIndex与panel结构 应用Pandas实现基本数据操作 应用Pandas实现数据的合并 应用crosstab和pivot_table实现交叉表与透视表 应用groupby和聚合函数实现数据的分组与聚合 了解Pandas的plot画图功能 应用Pandas实现数据的读取和存储 4.3 Matplotlib刚刚提到了一些,他是一个2D绘图库,一堆数据摆在面前的时候,我们可以将它便捷转化成图形。本文中提到的前三个库,就是数据分析Python库中的三驾马车。需要学习内容是: 应用Matplotlib的基本功能实现图形显示 应用Matplotlib实现多图显示 应用Matplotlib实现不同画图种类 大家只要记住可视化是在整个数据挖掘中的关键辅助工具就可以了,所以要学习怎么来画图。 4.4 ScipyScipy也是依赖Numpy的,Scipy是一个科学计算工具库。 4.5 StatsModelsStatsModels 包含了许多的统计模型,线性模型、广义线性模型、方差分析、时间序列(Pandas 也可以做,因为 StatsModels 又依赖于 Pandas)和线性混合效用模型等,在统计方面有其独特的优势。 四、总结以上基本上就是数据分析方向Python学习的内容。对于学习步骤也就是先Numpy或者是Matplotlib,第二学Pandas。 在书《大数据时代》中,提到了这样一种情况:玛丽莎·迈尔在任谷歌高管期间,有时会要求员工测试41种蓝色的阴影效果,哪种被人们使用最频繁从而决定网页工具栏的颜色。这是陷入“数据之上”的误区,这样的数据是毫无意义,访客能不能看出细微的差别不说,几乎没有人会因为阴影效果的不同而决定访问/不访问这一网页。 所以大家还要多多累积经验,以上内容足以学习之后,基本就成为了又数据分析思维的分析师,但是知识和实战一定是是有差距的。我们可以思考的业务场景是: 百度首页好物推荐,让你来设计指标衡量这个功能的话,你要怎么做? 一个APP,从来没有用户的行为分析,那么要开始进行数据埋点,你会怎么设计? 知乎要大力推广视频功能,基于此你如何分析? 各类音乐软件都会有每日歌曲和电台推荐,你怎么设计指标衡量功能? |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |