最近,ChatGPT和Copilot等人工智能工具的爆炸式增长,为程序员提供了更多帮助。然而,人工智能助手可能会删除代码中嵌入的注释,以传达版权和归属指南,从而使人类程序员一无所知,但仍会因侵犯知识产权而受到法律追究。
为了解决这个问题,圣路易斯华盛顿大学麦凯维工程学院的计算机科学和工程研究人员开发了CodeIPPrompt,这是第一个用于评估有多少语言模型生成IP违规代码的自动化测试平台。该团队包括助理教授张宁和王晨光;叶夫根尼·沃罗贝奇克(YevgeniyVorobeychik),教授;余志远,张实验室研究生,该论文的第一作者;肖超伟,亚利桑那州立大学计算机科学助理教授。
Yu于7月23日在檀香山国际机器学习会议上展示了这项工作。值得注意的是,该团队的分析表明,版权侵权问题在CodeRl、CodeGen和CodeParrot等最先进的开源模型以及Copilot、ChatGPT和GPT-4等商业产品中普遍存在。
“我们开发这个工具是为了帮助人们了解,如果他们使用这些大型语言模型来帮助编写代码,他们很有可能会生成知识产权侵权内容,”张说。“作为用户,我们有责任道德地使用人工智能。这受到我们如何理解人工智能技术及其产生的内容的影响。”
尽管CodeIPPrompt无法确定人工智能生成的代码是否构成知识产权侵权——张指出,这个问题最终是一个法律问题,随着针对人工智能工具用户侵犯版权的案件提起诉讼,该问题将在法庭上解决——但它可以为用户提供风险评分,表明生成的代码与受版权保护的内容的相似程度。张预计该工具将有助于指导人工智能的持续发展,并指出未来潜在的缓解策略和其他针对知识产权侵权的保护措施。