Chinaunix首页 | 论坛 | 博客
  • 博客访问: 25049
  • 博文数量: 124
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 1240
  • 用 户 组: 普通用户
  • 注册时间: 2021-07-28 11:37
文章分类

全部博文(124)

文章存档

2022年(54)

2021年(70)

我的朋友

分类: IT业界

2021-07-28 14:40:21

GitHub Copilot 究竟是什么?

Copilot 是一种基于公开源代码和文本训练的人工智能。它实时为程序员提供代码建议。 

Copilot 还使用 GPL 等 Copyleft 许可下的众多 GitHub 存储库作为培训材料。


那么为什么它和“抄袭有关?”

这还和当年那一段“雷神代码”有关。

有行业从业者称,在利用GitHub Copilot 走平方根倒数速算法(Fast Inverse Square Root),结果出人意料。

它简直“完美复刻”那段著名的代码,就连当年那句“what the fuck”的注释也用上了。

很难不让人认为这是抄袭。

只能说、GitHub、OpenAI 还想收费简直做梦!

一些评论家指责 GitHub 侵犯版权,因为 Copilot 本身不是在 Copyleft 许可下发布的,而是在测试后作为付费服务提供的阶段。

这场争论同时涉及几个棘手的版权问题。


收费还是免费?

GitHub Copilot 在训练过程中必定使用过 GPL 协议下的代码,那么机器学习系统产生的作品,甚至机器学习系统本身,都算是 GPL 协议中规定的衍生作品吗?

如果是那么GitHub Copilot很难避免的就是免费开源,原因不言自明,如果不是那是不是说明开发者可以利用 GitHub Copilot 来“清除”代码的 GPL 协议,从此再也无需遵循该协议?


工作原理

GitHub Copilot 由 OpenAI 研发的新 AI 系统 Codex 提供支持,Codex 是 GPT-3 的延伸版本,该模型接受过公开源代码和自然语言的训练,因此它理解编程和人类语言。

 

机器生成的代码不是衍生作品

一些评论员将 GitHub Copilot 视为侵犯版权,因为该程序不仅使用受版权保护的软件代码(其中很多是在 GPL 下发布的)作为培训材料,而且还生成软件代码作为输出。根据批评者的说法,这个输出代码是训练数据集的衍生作品,因为如果没有训练数据,人工智能将无法生成代码。根据 GitHub 的常见问题解答,在少数情况下,Copilot 还会从训练数据集中复制短片断。

 

黑科技传送门:

阅读(142) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~