作者 | 琥珀 出品 | AI科技大本营(ID:rgznai100) 前方高能预警,非战斗人士请火速撤离…… 今天给大家介绍一个在 GitHub 上一个开源的鉴黄图像数据集,它拥有 158万的数据量,叫做 NSFW data source URLs,目前该项目已收获 918 star 了。 项目地址:https://github.com/EBazarov/nsfw_data_source_urls 在 raw_data 文件夹里,可以找到不同的 .txt 格式的文档,每个文档都含有一组 URL,以下是关于该数据集的一些统计信息:
以下为项目中图片截图示例: 注意事项: 1. 建议下载后清洗下数据集,例如:
2. 注意噪声,一些资源提供了 NSFW 和中性图像的高度混合数据。 3. 该库还可以帮助检索 NSFW 图像,针对中性图像没有专用的 URL。 值得一提的是,在该项目之前还有一个类似的开源项目 nsfw_data_scrapper,里面有 22 万张图像,同样也可以用来检测或训练鉴黄系统。 项目地址:https://github.com/alexkimxyz/nsfw_data_scrapper (本文为AI科技大本营原创文章,转载请微信联系 1092722531) |
|