半个班延毕!美国教授用ChatGPT「查重」全给0分,登微博热搜 |
您所在的位置:网站首页 › fid检测器检出限一般为多少 › 半个班延毕!美国教授用ChatGPT「查重」全给0分,登微博热搜 |
文章转载来源:AI之势 来源:新智元 【新智元导读】天下苦GPT检测器久矣!用AI的怕被揪出来,没用AI的怕被冤枉。最近,又发生了一起被AI误判的冤假错案。离了个大谱! 最近,一位美国教授为了解决学生用AI作弊的问题,决定用‘魔法’打败‘魔法’。 但完全没搞懂原理的他,在‘查重’时竟然用的是Chat GPT。 于是,同学们辛辛苦苦码出的毕业论文,通通被胡说八道的Chat GPT判定为‘抄袭’。 而教授不仅据此挂掉了半个班的人,学校也拒发毕业证…… 甚至,这件事直接火到了大洋彼岸,一度登上了热搜。 教授:被Chat GPT认领的,都得0分 前段时间,在得克萨斯农工大学(Texas A&M),发生了这样一件令人哭笑不得的事。 为了检测学生提交的论文是否作弊,一位名叫Jared Mumm的教授把他们的论文提交给了Chat GPT。 他对学生们说:我会把你们的论文复制粘贴到Chat GPT中,它会告诉我,你们的论文是不是它生成的。 ‘我会在两个不同的时间段里,把每个人的最后三篇论文放进去,如果这两次它们都被ChatGTP认领了,我就会给你0分。’ 显然,没有任何计算机相关背景知识的Mumm教授,对Chat GPT的原理一窍不通。 实际上,Chat GPT并不能识别由AI创建的内容,即使是它自己写的都不行。 甚至,他连Chat GPT都没拼对——直接写成了‘Chat GPT’以及‘chat GPT’。 结果,全班有一多半人的论文被Chat GPT不负责任地‘认领’,因而挂了这一科。 更倒霉的是,大多数已毕业学生的文凭,因此直接被学校拒发了。 当然,Mumm教授也不是毫不留情,他为全班同学提供了重做作业的机会。 如何证明自己没用Chat GPT? 收到上面这封邮件后,几名学生写信给Mumm力证自己的清白。他们提供了带有时间戳的Google Docs,来证明自己并没有使用Chat GPT。 但Mumm教授直接无视了这些电子邮件,只在几个学生的评分软件中留下了这样的回应——我不给AI生成的‘shit’评分。 不过,还是有学生‘平反’了,据说,已经有一名学生被‘无罪释放’,并且得到了Mumm的道歉。 然而,让情况更复杂的事,有两名学生‘挺身而出’,承认自己的确在本学期使用过Chat GPT。 这一下子就让其他没有用Chat GPT写论文的学生,更难自证清白了…… 对此,得克萨斯农工大学商学院表示正在调查这一事件,但并没有学生不及格,也没有人因为这个问题被延毕。 学校表示,Mum教授正在一对一地与学生谈话,了解他们写作业的过程中是否使用了AI,使用到了什么程度。个别学生的文凭将被扣留,直到调查完成。 而学生们表示,自己并没有获得文凭。 目前,事件还在调查中。 用Chat GPT检测Chat GPT? 那么问题来了,Chat GPT能证明一篇文章是不是自己写的吗? 来源:B站UP主‘子羡nike’对此,我们基于教授这封邮件的内容,问了问Chat GPT的观点: Chat GPT一上来就表示,自己并没有能力验证内容的原创性,以及是不是由AI生成的。 ‘这位老师似乎误解了像我这样的AI是如何工作的。虽然AI可以根据提示生成文本,但它不能确定另一篇文本是否由人工智能生成。’ 话虽如此,但这并不能拦住爱整活的网友。 他们来了一出‘以其人之道还治其人之身’,在线教Mumm教授做人。 首先,Chat GPT表示,教授写的这封邮件,正是出自自己之手。 紧接着,网友又复刻了Mumm教授的做法—— 拿一段看起来像是某篇论文的节选,来问Chat GPT是不是它写的。 这次,Chat GPT虽然没说是自己写的,但基本上确定内容就是来自AI。 其中,有几个特征与Al生成的内容一致: 1. 文本是连贯的,遵循一个清晰的结构,从一般到具体。 2. 准确地引用了来源和数字数据。 3. 正确地使用了术语,这是典型的Al模型的特点。比如GPT-4,就是在包括科学文献在内的各种文本中训练出来的。 那么实际上,这段内容的出处是哪里呢? 有意思的地方来了,没想到竟然是Mumm教授自己写的博士论文! AI检测器并不灵? 既然Chat GPT无法检验一段内容是不是AI生成的,那什么可以呢? 自然是为此专门诞生的‘AI检测器’,号称是用魔法打败魔法。 众多AI检测器中,最出名的一个便是由普林斯顿华人本科生Edward Tian创建的GPTZero——它不仅免费,而且效果拔群。 只需把文字复制粘贴进去,GPTZero就可以明确地指出一段文字中,哪段是AI生成的,哪段是人类写的。 原理上,GPTZero主要靠‘困惑度’(文本的随机性)和‘突发性’(困惑度的变化)作为指标进行判断。 在每次测试中,GPTZero还会挑选出困惑度最高的那个句子,也就是最像人话的句子。 但这个方法其实并不完全可靠,虽然GPTZero声称产品的假阳性率 论文地址:https://arxiv.org/pdf/2304.02819.pdf 研究人员从中国的教育论坛上获取了91篇托福作文,又从美国Hewlett基金会的数据集中摘取了88篇美国八年级学生写的作文,输进了7大GPT检测器。 图中百分比即‘误判’比例,也就是明明由人写的,却被判为AI生成的可以看到,美国学生的作文被误判的概率最高才12%,而中国学生的作文,概率基本过半,甚至高达76%。 研究者的结论是,因为非母语者写的东西不地道,复杂度低,容易被错判。 可见,以复杂度来判定作者是人类还是AI,并不合理。 抑或,背后还有其他原因? 对此,英伟达科学家Jim Fan称,检测器在很长一段时间内都是不可靠的。毕竟AI会变得越变越强,并且会以越来越像人类的方式写作。 可以肯定地说,随着时间的推移,这些语言模型的小怪癖会越变越少。 不知这对学生们,会是福音还是噩耗。 海量资讯、精准解读,尽在新浪财经APP 责任编辑:张靖笛 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |