- 主页 > 生活百科 > >
盘点20多个强大且免费的数据源,任何人都能以此来构建AI( 二 )
Google Open Images——数以百万计的图像以各种方式分类和标记,用于训练许多不同类型的计算机视觉算法 。 Imag.NET Open Dataset——另一个由标记图像组成的数据集,可免费用于非商业机器学习应用 。 COCO Dataset——Common Objects in Context (COCO)数据集中包含了超过200000张图像,这些图像被选择用于训练对象检测和字幕算法 。声音数据
- Mozilla Common Voice——一个开放的录音数据集,可用于训练任何涉及语音的AI应用 。
- AudIOSet——另一个由谷歌策划的数据集,这个数据集专注于声音,包含数十万个10秒样本,这些样本被分解为乐器、车辆和人声等类别 。
- Million Song Dataset——来自一百万个当代流行音乐曲目的样本和元数据 。
文本数据
- Wikidata——多种不同格式的维基百科文章的数据库下载 。
- Common Crawl——一个从万维网上抓取的开放数据存储库,最知名的用途就是对ChatGPT和其他聊天机器人的GPU大型语言模型进行训练 。
其他和杂项数据集
- Amazon Reviews——包含约3500万条亚马逊产品评论的数据库,包括产品信息和评级 。
- Waymo Open Dataset——Alphabet自动驾驶子公司Waymo公开了通过自动驾驶车辆收集的大量数据,包括来自摄像头和LiDAR传感器数据 。
- Apolloscape Dataset——更多的自动驾驶数据,是由百度开源Apollo平台提供的 。
推荐阅读
-
社会的华峰|人口为什么比俄罗斯还多3000万?,弹丸小国孟加拉国,
-
「火箭军」什么是中国力量?我国四大军种有一支仅有5万人,令美国闻风丧胆
-
-
-
无限火力|无限火力版本唯一真神!最快11分钟结束游戏,仅需一周就能刷完4200代币!
-
-
美股研究社 亚马逊“疫外躺赢”是个伪命题?,Q1营收超预期净利润反降
-
-
【笑笑君】怎么不带上你爱人一起?,笑话:新郎看我来了热情地说道:老同学
-
粉色是年轻女孩的最爱,美女用粉色薄纱来装点连衣裙,甜美又减龄
-
投资标的|全球最知名的以色列技术转让公司Yeda为什么这么成功?
-
北京日报客户端|网购配件组装真枪,香港一仇警男子押后至10月再讯
-
『好孩子』惨痛教训!一小学生落水,七学生去救,均无生命体征!看好孩子!
-
-
历史|见证历史,科创50ETF一天爆卖近1000亿!一个月后还能买,要跟吗?
-
科客 iQOO 5系列重点特性持续出炉,不仅是充电无敌
-
-
菲律宾总统府|菲律宾总统府:菲律宾早已不是美国人的殖民地
-
-