- 主页 > 生活百科 > >
盘点20多个强大且免费的数据源,任何人都能以此来构建AI( 二 )
Google Open Images——数以百万计的图像以各种方式分类和标记,用于训练许多不同类型的计算机视觉算法 。 Imag.NET Open Dataset——另一个由标记图像组成的数据集,可免费用于非商业机器学习应用 。 COCO Dataset——Common Objects in Context (COCO)数据集中包含了超过200000张图像,这些图像被选择用于训练对象检测和字幕算法 。声音数据
- Mozilla Common Voice——一个开放的录音数据集,可用于训练任何涉及语音的AI应用 。
- AudIOSet——另一个由谷歌策划的数据集,这个数据集专注于声音,包含数十万个10秒样本,这些样本被分解为乐器、车辆和人声等类别 。
- Million Song Dataset——来自一百万个当代流行音乐曲目的样本和元数据 。
文本数据
- Wikidata——多种不同格式的维基百科文章的数据库下载 。
- Common Crawl——一个从万维网上抓取的开放数据存储库,最知名的用途就是对ChatGPT和其他聊天机器人的GPU大型语言模型进行训练 。
其他和杂项数据集
- Amazon Reviews——包含约3500万条亚马逊产品评论的数据库,包括产品信息和评级 。
- Waymo Open Dataset——Alphabet自动驾驶子公司Waymo公开了通过自动驾驶车辆收集的大量数据,包括来自摄像头和LiDAR传感器数据 。
- Apolloscape Dataset——更多的自动驾驶数据,是由百度开源Apollo平台提供的 。
推荐阅读
-
-
第一财经|一文读懂公募REITs业务配套文件说了什么
-
娱乐圈快看|小露香肩秀完美侧颜,五官精致宛如芭比娃娃,Baby拍时尚大片
-
-
第一次提问:我住在大学6人宿舍,我把自己的小地方好好按照我的方式收拾了一次,舍友有些不认可,咋办
-
【移动支付】马云也没料到!支付宝不知不觉中,摧毁了一个存在千年之久的行业
-
「」上网课,学生的家境被“一览无余”,网友:没有对比就没有伤害
-
人到中年越没钱,越不要深交这三种小人,小人只会背叛你,利用你
-
-
游侠网|预计9月17日发货,魔兽桌游《小小魔兽世界》开启预购
-
二狗聊科技▲江淮玩起能量转化物尽其用,汽车尾气=电能?
-
中国|无道失德 千夫所指——看清美“三无”政客真面目系列评论之三
-
-
-
「」为啥强悍如老鹰都不敢碰喜鹊?老鹰:不是不想碰,躲都来不及
-
股票|江南化工:拟发行股份购买北方特种能源集团所持的民用爆破业务子公司股权
-
地球|印度将成人口第一大国 红利还是陷阱?近17亿人口 风险和压力激增
-
国际狗仔■地铁内人员大量聚集,俄罗斯电子通行证审查首日状况:交通拥堵
-
-
科技説説説|从高端市场跌到中端市场,网友:终于等到了!,从5488降至3428