【数据分析与数据挖掘】二、数据获取方法汇总 |
您所在的位置:网站首页 › 数据获取的来源包括 › 【数据分析与数据挖掘】二、数据获取方法汇总 |
目录 1.数据获取手段 (1)数据仓库 (2)监测与抓取 (3)填写、埋点、日志 (4)计算 2.好用的数据学习网站 1.数据获取手段数据获取手段有:数据仓库,监测与抓取,填写、日志、埋点,计算等。 (1)数据仓库如果一个网站是卖书的,建立的数据库存储书的信息,用户的信息等,当网站扩展到一定规模时,遇到一个很重要的方向问题,该卖哪些书,该着重面向什么人群推荐什么书,这时仅仅靠数据库是不够的,于是需要把每一次用户进行数据交互时,数据库的变动的信息都记录下来,例如用户在几时几分买了什么书,浏览了什么网页,如实记录并长期保留。这就需要数据仓库了 将所有业务数据经汇总处理,构成数据仓库(DW) 全部事件的记录; 部分维度与数据的整理(数据集市-DM); 数据库与数据仓库 数据库面向业务存储,仓库面向主题存储(主题:较高层次上对分析对象数据的一个完整并且一直的描述); 面向业务需要保证高并发,快速读写,数据结构精简等,主要为用户提供优质的用户体验; 数据仓库面向主题存储; 数据库针对应用(OLTP-online transaction processing),数据仓库针对分析(OLAP-online analysis processing); 数据库组织规范,仓库可能冗余,相对变化大,数据量大; (2)监测与抓取监测是通过检测设备和算法直接获取数据,如传感器网络; 抓取是爬取网站上的内容; (3)填写、埋点、日志填写指的是用户填写的信息,如用户注册时的信息; 埋点:在APP或者网页应用中,针对特定的流程,收集一定的信息用来根据APP或者网页用户使用的情况,以便用来进一步优化产品,运营支持; 操作日志,日志是以文件形式存在的; (4)计算有些数据不能直接计算,需要通过已有数据计算生成衍生数据,例如统计报表某些项目。 2.好用的数据学习网站(1)数据竞赛网站(Kaggle&天池); (2)数据集网站(ImageNet/open Images(google出的)); (3)各领域统计数据(统计局、政府机构、公司财报等); |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |