本文来源:OpenDataLab 更多资料获取:https://note.youdao.com/s/SaHfWY5V 这两天,接连2篇入选的论文被曝抄袭,让原本就备受关注的CVPR 2022 站到了风口浪尖。 一篇是来自韩国首尔大学 AI 研究团队的论文,入选了 CVPR Oral(口头报告),被曝出涉嫌抄袭10篇论文,甚至出现原句照抄的内容。 另外,IBM 一篇入选的论文也被举报涉嫌抄袭,来自平安科技的研究员向CVPR 2022 program chairs 举证,指出 IBM 的 TableFormer 从方法论、预处理、后期处理、文字行检测与识别等9个方面抄袭了自己团队2021年的开源项目 TableMASTER。爆料者表示,很多痕迹都可以看出,IBM 基于他们开源的预训练模型训练,只是改了一些细节。[1][2] IBM 相关 TableFormer论文被指抄袭(图源:参考资料[7]) 这引发了国内外 AI 研究员的热烈讨论。有网友调侃,抄袭的论文都能拿Oral,而认认真真做实验的论文却因为各种理由被拒,得好好研究一下这是如何做到的。 其背后透露出的是科研人的苦楚、对论文审查结果的不满,还有对开源项目不规范使用的担忧。 在倡导开源共享的今天,开源不仅仅是一种热爱分享的极客精神,而是已经成为一种分布式可信的开发模式。许可协议(License)则是规范知识产权保护与作品使用权限的有力载体。 不管是算法、模型、数据集,从创造之初就和其他创意作品一样默认享有著作权。许可协议则是基于著作权法,为了实现作品的自由分发以及自由修改,而提出的一系列标准化的公共许可合同,便于作品拥有人授权给其他人使用。 软件与其他类型的创意作品有较大不同,常用“开源协议”来规范开源软件的使用。比如,常见的Apache v2、BSD、MIT、GPL、LGPL等,有的数据集也会采用这类开源协议,经常接触开源项目的朋友比较熟悉,就不做过多展开。 代码托管平台的开源协议示意(图源:Github) 而常用的数据集许可协议有3种来源: ● 知识共享 (CC) ● 开放数据共享 (ODC) ● 社区数据许可协议 (CDLA) (需要注意的是,CC许可协议是著作权许可协议,因此只涉及著作权及相关的邻接权,而不涉及专利、商标等其他知识产权,也不涉及肖像权、隐私权、形象权等其他权利。[4]) ● CC BY (Attribution 署名) ● CC BY-SA (Attribution-ShareAlike 署名-相同方式共享) ● CC BY-ND (Attribution-NoDerivs 署名-禁止演绎) 保留原作者姓名,允许商用,但是不能改编原作与他人分享。 ● CC BY-NC (Attribution-Noncommercial 署名-非商业性) 保留原作者姓名,允许非商业目的重新编排、改编或者再创作,但是不能商用。基于原作的演绎作品无需使用相同的许可协议。 ● CC BY-NC-SA (Attribution-NonCommercial-ShareAlike 署名-非商业性使用-相同方式共享) 需保留原作者姓名,并在基于原作创作的新作品适用同类型的许可协议,即可基于非商业目的对原作重新编排、改编或者再创作。 ● CC BY-NC-ND (Attribution-NonCommercial-NoDerivs 署名-非商业使用-禁止演绎) ● CC0 知识共享组织于2009年发布了一种放弃著作权的便捷方式,即CC0。严格来讲CC0并非双方的许可合同,而是一种单方的声明。选择CC0作为许可协议,则说明作者将数据集捐赠给公众使用,此数据集完全公有,使用时无需署名,也无其他限制。 开放数据共享 (ODC) 为开放数据提供合法工具。他们提供三种许可类型,每种都有自己的使用条款!● ODC-PDDL ● ODC-BY ● ODC-ODbL 2017年,Linux 基金会提出了社区数据许可协议 (CDLA) 为社区提供了开放的数据共享选项。他们提供两种许可类型,每种都有自己的使用条款。[5]● CDLA-Permissive-2.0这是社区数据许可协议的第二个版本。对开放数据的贡献者和使用者不作要求。你可以使用、修改和共享,许可协议不对结果的使用、修改或共享施加任何限制或义务。● CDLA-Sharing-1.0这属于copyleft(强制共享)许可类别,你可以使用、修改和共享,但无论是否修改,基于原作创作的新作品必须与原始版本有相同的许可协议。社区数据许可协议 (CDLA)官网(图源:参考资料[6])以上就是常见的数据集的许可协议类型,也即是我们常说的数据集License 的含义。你学会解读了吗? 在OpenDataHub,我们贴心地帮大家整理好了各个数据集的License信息,并且从Permission, Limitations, Condition三个方面进行结构化梳理,使之更加完善,方便大家自主查询。 同时,平台也建立了严格的安全审核机制,核实了每个数据集的分发依据,确保每个可获得的数据集都是符合授权的,使大家能够快速、便捷、安全无忧地使用。 还等什么,快来试试吧。 OpenDataHub数据集License示意(图源:https:///)[2]https://www./watch?v=UCmkpLduptU [3]https://wiki./wiki/Considerations_for_licensors_and_licensees#Make_sure_the_material_is_appropriate_for_CC_licensing. [4]https://www./r/MachineLearning/comments/vlpnuw/d_ibm_zurich_research_plagiarised_our_paper_and/ [5]https:/// [6]https://v/sharing-1-0/ [7]https://www./r/MachineLearning/comments/vlpnuw/d_ibm_zurich_research_plagiarised_our_paper_and/ |
|