常用数据下载网站汇总

您所在的位置:网站首页 免费大数据网站黄页下载 常用数据下载网站汇总

常用数据下载网站汇总

2022-12-31 08:51| 来源: 网络整理| 查看: 265

AI最重要的几大要素:数据、算法、算力。其中最基础也是很重要的一个内容就是数据,一个数据的好坏往往决定了你的模型的性能、效果、泛化能力。但是准备、完善、标注数据的过程往往是耗时耗力,所以如何知道更多的经典数据集,能够快速获取自己需要的资源是非常重要的。

本篇主要的目的是网罗汇总个人认知范围内的所有比较好的数据集及其链接地址、相关信息、以及链接地址等。以便于大家使用的时候可以尽快下载,尽快找到足量数据,所以事无巨细全都汇总在一起。主要包括以下几个来源:

(1)学术上已经公布发表,或者成为业界检测某种算法性能的知名数据集

(2)已知的别人已经整理过的、公开的数据整理数据集序列表

(3)数据量丰富的,可以免费下载的常用网站

前言

汇总几个下载一般数据集的常用网站。

不仅包含用于实验的大型数据集,还附带对数据集的描述以及使用示例。有的还包含用于解决与该数据集相关机器学习问题的算法代码。

5.1、Kaggle数据集

数据集地址:https://www.kaggle.com/datasets

5.2、Amazon数据集

数据集地址:https://registry.opendata.aws/

该数据源包含多个不同领域的数据集,如:公共交通、生态资源、卫星图像等。

网页中也有一个搜索框来帮助用户寻找想要的数据集,还有所有数据集的描述和使用示例,这些数据集信息丰富且易于使用!

数据集存储在Amazon Web Services (AWS)资源中,比如Amazon S3——云中的一个高度可伸缩的对象存储服务。

如果用户正在使用AWS进行机器学习实验和开发,这将非常方便,由于它是AWS网络的本地数据,因此数据集的传输将非常快。

5.3、UCI机器学习资源库

数据集地址:

https://archive.ics.uci.edu/ml/datasets.html

另一个来自加州大学信息与计算机科学学院的大型资源库,包含100多个数据集。

用户可以找到单变量和多变量时间序列数据集,分类、回归或推荐系统的数据集。

有些UCI的数据集已经是被清洗过的。

5.4、谷歌数据集搜索引擎

数据集地址:

https://toolbox.google.com/datasetsearch

在2018年末,谷歌做了他们最擅长的事情,推出了另一项伟大的服务——它是一个可以按名称搜索数据集的工具箱。

他们的目标是统一成千上万个不同的数据集存储库,使这些数据能够且易被发现。

5.5、微软数据集

数据集地址:https://msropendata.com/

2018年7月,微软与外部研究社区共同宣布推出“Microsoft Research Open Data”。

它在云中包含一个数据存储库,用于促进全球研究社区之间的协作。它提供了一系列用于已发表研究的、经过处理的数据集。

5.6、Awesome Public Datasets Collection

数据集地址:

https://github.com/awesomedata/awesome-public-datasets

这是一个按“主题”组织的数据集,比如生物学、经济学、教育学等。

这里列出的大多数数据集都是免费的,但是在使用任何数据集之前,用户需要检查一下许可要求。

5.7、政府数据集

政府相关数据集也很容易找到的。

许多国家为了提高透明度,向公众分享了各种数据集。以下是一些例子:

欧盟开放数据门户:欧洲政府数据集。

数据集地址:

https://data.europa.eu/euodp/data/dataset

美国政府数据:目前由于一些非政治性原因,暂时无法访问。

数据集地址:https://www.data.gov/

新西兰政府数据集:

数据集地址:

https://catalogue.data.govt.nz/dataset

印度政府数据集:

数据集地址:https://data.gov.in/

5.8、计算机视觉数据集

数据集地址:https://www.visualdata.io/

Visual Data包含一些可以用来构建计算机视觉(CV)模型的大型数据集。

用户可以通过特定的CV主题查找特定的数据集,如语义分割、图像标题、图像生成,甚至可以通过解决方案(自动驾驶汽车数据集)查找特定的数据集。

5.9 阿里天池

数据集地址:https://tianchi.aliyun.com/dataset?spm=5176.12282016.0.0.29536d92P3ZKjo

5.10 格物钛

在CV等计算机领域中,好的数据,对模型训练至关重要。自己做数据,即昂贵又费时费力;但是,使用现成的数据集,即不好找又不好下载及使用。直到最近,找到一个数据集获取神器 Graviti Open Dataset。

- 简单点说,Graviti 是一个提供公开数据集的平台,你可以很方便的搜索你想要的数据,可在线预览样例数据、标注、标签,对于国外的数据不需要“梯子”、可高速免费下载。

- Graviti 收录了 400 多个高质量 CV 类数据集,覆盖无人驾驶、智慧零售、机器人等多种 AI 应用领域。

- 不仅种类多,还方便搜索,可以按应用行业 , 标注类型进行筛选!查找简单操作。

- 除了整合数据集信息以外,在线可视化也是亮点!无需下载直接可以浏览样例数据,标注、标签同样可以轻松在线查看。

甚至,提供了数据分布:

官方地址:https://www.graviti.cn/open-datasets

—— E N D ——



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3