少数“剧毒”维基百科编辑在网站上造成9起滥用

日期:2018-06-17 浏览:39

我们都听说过维基百科和其他社交平台上的钓鱼趣闻,但是很少有人能够量化网络滥用的程度和来源。这就要改变了。字母科技孵化器拼图的研究人员与维基媒体基金会合作,分析英文维基百科上留下的10万条评论。他们发现了谁将发动人身攻击以及何时发动攻击的可预测模式。

研究小组的目标是为自动化系统奠定基础,以减少维基百科上的有毒讨论。该小组的工作有朝一日可能导致为温和派建立一个警告系统。研究人员警告说,这个系统需要更多的研究才能实现,但他们发表了一篇论文,其中有一些引人入胜的早期发现。

为了使受监督的机器学习任务变得简单,研究人员专门关注相对容易识别的广告人攻击或个人攻击。他们将人身攻击定义为针对评论者(即你吸 ),针对第三方(比尔吸 ),引用攻击(比尔说亨利吸 ),或者只是另一种攻击或骚扰。他们用众包来众包2004 - 2015年间发表的10万条维基评论。最终,他们使用了4000多名众包员工来完成任务,每一个评论都被10个不同的人标注为攻击与否。

一旦研究人员得到他们的数据集,他们就训练logistic回归算法来识别评论是否是人身攻击。通过测试,我们发现一个训练有素的模型在预测编辑是否是个人攻击方面比三个人类人群工作者的总和还要好,他们在媒体上的论文摘要中写道。

谁在发动人身攻击?研究人员在维基百科2015年发表的评论上发布了他们的算法,不断检查结果的准确性。他们几乎立即发现,他们可以揭穿匿名*导致虐待的陈腐观念。尽管匿名评论是攻击的六倍,但它们不到维基百科所有攻击的一半。研究人员在论文中写道:“同样,不到一半的攻击来自以前很少参与的用户”。也许令人惊讶的是,大约30 %的攻击来自贡献超过100的注册用户。换句话说,三分之一的个人攻击来自维基百科的定期编辑,他们每个月都会贡献几个编辑。个人攻击似乎融入维基百科文化。

研究人员还发现,来自极少数高毒性维基百科贡献者的攻击比例过高。2015年,多达9 %的攻击来自仅34名用户,他们在这一年中进行了20次或更多的个人攻击。研究人员指出,通过减少相对较少的频繁攻击者,可以取得显著进展。这一发现支持了这样一种观点,即在线社区中的问题通常来自一小部分高声音用户。

进一步准备如果我们对待在线骚扰的方式和对待垃圾邮件的方式一样呢?该算法还能够识别一种经常被称为“堆积”的现象。他们发现攻击性评论发生的可能性是另一攻击性评论的22倍。研究人员写道:“人身攻击及时聚集在一起”。也许是因为一次人身攻击引发了另一次。虽然这对于曾经偷看过Twitter的人来说并不奇怪,但是能够量化这种行为对于机器学习是一个福音。这意味着一个算法可能能够在它真的爆炸之前识别堆积,而温和派可能会在事情变得非常糟糕之前介入降级。

令人沮丧的是,研究还发现,很少有人身攻击得到缓和。只有17.9 %的人身攻击导致警告或禁令。如果攻击者发动了多次攻击,或者之前已经被缓和过,那么他们更有可能被缓和。但是,对于一个社区可能发生的最明显和最明显的虐待形式来说,这是一个极低的温和率。

研究人员在论文的最后呼吁进行更多的研究。维基百科在2004年至2015年间通过Figshare向网站发布了所有talk - page评论的转储,因此其他研究人员将可以访问与Jigsaw和维基媒体基金会团队相同的数据集。研究人员说,了解攻击如何影响其他用户是当务之急。反复攻击会导致用户放弃吗?有些团体比其他团体更经常受到攻击吗?我们知道的越多,我们就越接近有好的工具来帮助温和派。研究人员写道,这种工具可能被用来帮助主持人构建仪表板,更好地可视化维基百科对话的健康状况,或者开发更好地分类评论的系统供审查。

*更新:为了澄清这一点,研究人员将未注册用户描述为匿名用户,而不是链接了假名(偶尔还有实名)的注册用户。所以这里的区别是匿名/未注册和假名/注册。研究人员之一卢卡斯·迪克森指出,研究小组在维基媒体Meta - Wiki上与维基人深入讨论了这一区别。Hoshi Ludwig

列出图像