资讯正文

大师也做弊旧日KaggleGrandmaster面对终身禁赛雇主此人往后与我司无关

放大字体  缩小字体 2020-01-12 06:57:41  阅读:9472 作者:责任编辑NO。许安怡0216

编者按:本文来自微信群众号“机器之心”(ID:almosthuman2014),36氪经授权发布。参加:张倩、蛋酱Kaggle 一项竞赛的谈论页面...

编者按:本文来自微信群众号“机器之心”(ID:almosthuman2014),36氪经授权发布。

参加:张倩、蛋酱

Kaggle 一项竞赛的谈论页面显现,一个名为「Bestpetting」的冠军团队因做弊被 Kaggle 撤销了参赛资历,团队成员还包括一位 Grandmaster。这位 Grandmaster 被永久禁赛,由于有依据标明,他是该做弊活动的关键人物
该团队通过做弊的办法获取了测验集的答案,并且为了让分数看起来愈加实在,他们只用了其间一部分答案。

作为最著名的数据科学竞赛渠道,Kaggle 成立于 2010 年,并于 2017 年被谷歌收入旗下。迄今为止,这一渠道上现已举行了三百多场各种类型的数据竞赛。

许多公司、政府研讨组织都会把自己的数据放上来,开放给全球范围内的参赛者,让他们协助自己建模型。为了更好的前进参赛积极性,他们也会设置必定的奖金,用来奖赏模型精度最高的几个部队,有些竞赛的奖金还能够高达百万美元。

于是乎,Kaggle 源源不断地招引了不计其数的开发者来参加竞赛,许多数据科学家在 Kaggle 上投入了很多的时刻和精力。在比如机场安全、卫星数据剖析这类的使命上,不乏数十年经历的优异团队参加竞赛。

在机器学习爱好者们心中,Kaggle 是一个灯塔般的存在

为了鼓励参赛者不断应战新的难题,Kaggle 设置了一个排行榜,将参赛者分为「Novice」、「Contributor」、「Expert」、「Master」、和「Grandmaster」四个等级。

其间,「Novice」、「Contributor」等级最低,注册就能成为「Novice」,增加一些材料、探究一下 Kaggle 并与社区进行一些沟通就能晋级为「Contributor」。

但从「Expert」开端,参赛者就要实打实地拿出成果了。要晋升到竞赛的「Grandmaster」,你需求至少获得 5 枚金牌

违背公益初衷的做弊行为

此次被曝做弊的团队参加的是一项猜测宠物领养速度的竞赛。研讨标明,宠物被领养的速度与它们在网上的相片、描绘等信息存在相关性。参赛者的使命便是找出这种相关性,协助宠物领养组织优化宠物的电子档案,使其看上去愈加「心爱」,然后前进被领养的速度,削减「安乐死」的数量。

此次竞赛在上一年三月份打开,奖金池一共 2.5 万美元,冠军团队能够得到 1 万美元的奖赏。Kaggle 信息显现,该团队在竞赛中存在以下做弊行为:

1. 他们通过做弊的办法获取了私有测验数据的领养速度答案(可能是通过爬取 Kaggle 网站);

2. 这些数据和答案被编码、含糊处理并混入一个 ID 字段,伪装成他们名为「cute-cats-and-dogs-from-pixabaycom」的外部数据集的一部分;

3. 在处理数据时,他们混进来的 ID 字段被解码,答案在猜测阶段能够被检索到;

4. 他们只使用了其间一部分被编码的答案,以使分数看起来愈加「实在」;

5. 这些通过处理的代码被精心躲藏并混杂在许多嵌套的函数和代码层下,成心被规划成高度不可读和平铺直叙的姿态。

一位 Kaggle 网友「Benjamin Minixhofer」最早发现了其间的猫腻,在测验将这项竞赛的几个优异计划转化为出产体系的过程中,他发觉了冠军计划好像不太对劲,随后就将这项违规行为报告给了 Kaggle 组委会,组委会也立马打开了相关查询。

在工作曝光后,这位告发者小哥撰写了一个具体文档来阐明该团队的做弊行为:https :///c/quora-insincere-questions-classification/discussion/80665

他说:「这件事破坏了 Kaggle 竞赛的公平性,并且我费了半响劲想把他们的计划转化为出产体系,成果竟然是做弊。或许 Kaggle 官方不期望我宣布这篇公开了许多私家测验数据的文章,但我期望参赛者们都能从中得到一些启示。」

从前的 Kaggle Grandmaster 被终身禁赛

承认做弊行为后,Kaggle 组委会撤销了冠军团队的资历,现在现已从头修改了排行榜。不过其时颁发给冠军团队的 10000 美元奖金现已木已成舟。

这件事的问题在于,「猜测宠物领养速度」本是一个公益性的赛题,初衷也是抢救小动物的生命。在这样的前提下,团队只是为了经济利益而采纳做弊手法,更令人不齿。

此前也发生过获奖者被撤销资历的工作,但都是在竞赛前。这是第一次在竞赛完毕 9 个月之后才被挖出来的做弊行为,也是 kaggle 渠道创建以来,第一次有人由于做弊被完全撤销参赛资历。

被告发团队中的 Kaggle Grandmaster 一起也在硅谷一家开源软件公司 H2O.ai 任数据科学家职位。

这个「Former」也是耐人寻味。

这家公司首要的产品是一款数据科学和机器学习开源渠道,叫做「H2O」,为许多国际 500 强企业供给人工智能产品解决计划。

事发后,公司现已作出了回复,称「已进入查询程序,此人与我司不再有任何关系」。

先是被禁赛名誉扫地,接着又面对被公司开除的命运,有人开端怜惜这位 Grandmaster,觉得这种做法未必过分苛刻,赏罚的公平性也有待商讨。也有人由于 Kaggle 的严峻做法而被圈粉,觉得这么做是天经地义。并且 ta 以为,欲戴王冠,必承其重,Grandmaster 自身就对遵守规矩负有更大的职责。

但也有人爆料称,这位 Grandmaster 在 Kaggle 竞赛中呈现不端行为现已不是第一次了。在上一年的一项谷歌地标检索竞赛中,他们也有相似的行为并被撤销了参赛资历。

吃瓜通道:https:///c/landmark-retrieval-2019/discussion/95136

现在,这个帖子已被删去,但从谈论区咱们仍然能够大体复原争辩的焦点地点:Kaggle 在这项竞赛中呈现了数据走漏问题,该团队发现了这一缝隙并充沛的使用,以此为优势获得了很好的成果。

数据走漏问题在各种数据竞赛问题中多次呈现,有些团队发现之后会将这一问题报告给组委会。如在 Kaggle 的某个 NLP 竞赛中,一些团队的准确率达到了 100%(NLP 范畴呈现这种准确率是十分难以想象的)。有人发现了走漏的数据集并将其兼并提交了上去。

但也有团队会使用其作为秘密武器获得高分。对此,批评者共同以为这种做法是不品德的,对之后的竞赛和参赛者都没有学习含义,也不利于科学的前进。

对此,这位 Grandmaster 辩解称,他们没有向群众躲藏自己的办法,所以没有违背规矩,并且是诚笃的行为。至于为什么使用缝隙,他解说说,「假如竞赛自身就有缝隙,那总会有人去使用。不必的话就会失掉优势,得到令人绝望的成果。所以摆在参赛者面前的只要两个挑选:要么退赛,要么使用缝隙。

由此可见,这种做弊行为的不断呈现不只是参赛者个人品德的问题,赛事的规划者也负有不可推卸的职责。参赛者的品德良莠不齐、难以把控,只要在赛事规划上多下时间才是处理问题的底子办法。

参阅链接:

https:///r/MachineLearning/comments/emus6a/n_kaggle_petfindermy_contest_first_place_winner/https:///c/petfinder-adoption-prediction/discussion/125436