老司机谈鉴黄,新一代“鉴黄师”是如何养成的?

article/2025/10/17 0:28:13

在互联网高速发展的今天,直播平台,内容社区,视频网站等UGC/PGC平台蓬勃发展,如雨后春笋般出现。但巨大的安全隐患也接踵而至,内容审核成为企业最关键的一道防火墙。企业招聘大量的内容审核专员来应对包括色情、暴力、犯罪等多个方面的不良内容。其中鉴黄师可能是最神秘也最令人遐想的岗位了。


说起鉴黄师,大家会心一笑,看看黄图还有高收入,简直没天理。但是在从业人员看来,它真的那么令人向往吗?阿里聚安全小编专访了负责阿里内容安全(阿里绿网)的资深赛车手——来自阿里安全多媒体算法团队的唐秋。常年战斗在一线的他,是如何学习高超的驾驶技巧?



从鉴黄师到“鉴黄师” 

唐秋告诉小编,鉴黄师发展到今天,它的身份已然有着不同的变化。 

第一代鉴黄师正如大家所想的那样,通过一双肉眼鉴别淫秽图片和视频。但这份工作并不轻松,他们每天需要完成海量的图片视频鉴别。因此长时间从事这份工作,不仅对身体是一种摧残。观看太多的色情作品,甚至扭曲的色情作品,还会对心理造成极大的创伤,影响正常的性生活和婚姻关系。


图片来源于网络


在人工鉴黄成本上升和互联网日益猖獗的色情信息的环境下,第二代“鉴黄师”应运而生。

第二代“鉴黄师”从人工鉴黄演变到机器智能鉴黄,通过人工智能、深度学习和大数据样本等技术,千万张正常图片与色情图片的训练模型,最终生成一个智能鉴黄模型。




智能鉴黄模型生成步骤


上面这张图的步骤里,制定标准与标注数据的难度比训练模型更大一些。因为现实世界是复杂的,不同的人对同一张图片的认识往往不一样。


打个比方,女性泳装图片,如果以沙滩为背景如何判定,换成室内环境呢?儿童的写真该如何判断?


为了制定标准,他们了承受很大的压力,一旦没处理好,会引起舆论的压力和监管部门的处罚。阿里内容安全团队的运营与算法同学一起讨论修订了数次才有了初版,并且在后续打标过程中根据遇到的问题进行了几次增补,标准才稳定下来。


阿里内容安全的智能鉴黄技术使用非常简单,输入一张图片或视频,算法模型返回一个0-100之间的分值。这个分值非线性地标示图片含色情内容的概率:得分99及以上的图片几乎可以肯定是色情图,可以机器自动处理;得分50-99的需要人工审核;得分50以下的认为是正常图,因为50分及以上包含了99%以上的色情图片。




阿里内容安全的图片识别结果



在获取最初的样本过程中,唐秋告诉小编一个数据:近2000网站,6000+万疑似色情图片,1300+万的高质量标注。他说这是智能鉴黄最重要的一块基石。


“老司机”带着“新司机” 

在这个阶段,传统鉴黄师从完成鉴别工作转变到教会机器如何识别的更准确。他们给得分在50-99的图片视频标注“正常”、“性感”、“色情”的分类,机器根据标注去学习,让它们变的越来越聪明。


那么有一个问题:会出现教会徒弟,饿死师傅的情况吗? 

“教会徒弟后,是让师傅更加轻松。而且,师傅和徒弟可以互相学习,共同进步”。唐秋告诉阿里聚安全小编,智能审核+人工审核是目前国内互联网公司主流的内容审核方法。




智能审核为主

智能识别每天可以处理几亿张图片,不仅可以节省企业大量的人力成本,并且大大提高识别的准确率。还能提供音视频、文字、直播等形式的内容检测,覆盖鉴黄、暴恐、涉政、广告等多种内容风险。每一条视频/信息的发布,都将经过机器和人工等多道审核。


以上智能审核的功能可以访问阿里聚安全提供的内容安全服务免费测试体验(http://jaq.alibaba.com/green)企业可使用户通过低成本的一次接入,与OSS、ECS等云产品无缝对接。它支撑着阿里系淘宝、支付宝等核心业务的内容安全。目前微博、熊猫TV、支付宝都在使用阿里内容安全功能,覆盖社交、直播、金融等多个行业。


人工审核为辅

虽然在后期机器识别越来越精准,可以胜任绝大部分的审核工作,但是相比人工审核还是有一定的局限性。因为机器还很难模拟出正常的用户体验,很难理解内容背后的深意,很难作出准确的“人的判断”。并且直播和视频行业盛行的今天,机器检测其内容的难度较大,还是需要人工来辅助审核完成。


但随着智能技术的更新,识别效率的提高,人工审核的占比将越来越低,人工智能或许可以彻底将传统鉴黄师以及内容审核专员解放出来,最终传统鉴黄师将会往第三代发展。


http://chatgpt.dhexx.cn/article/xsDrCXpL.shtml

相关文章

福利:tumblr五年驾龄老司机必备利器

大名鼎鼎的tumblr不用多说,分享几个非常好用的软件工具,全都是亲测好用 如果你发现更好用的工具,tell me tell me 官方app Tumblr 安卓版 Tumblr iOS版 下载视频 电脑端 win:维棠 推荐此软件可批量下载某个博主的视频&#xff0c…

IT老司机福利 | 这十多个新姿势你知道吗?

1024这个数字, 相信不少纵横IT界的老司机都十分熟悉 1024=2^10 1024字节=1KB +1024还是网络流行语 …… 然而 每天早出晚归的IT老司机 只掌握一个知识点是不行的 不upgrade自己 学习新姿势怎么棒棒? 3月24日 本周五 BingoDay2017

分享7个比B站更刺激的老司机网站,别轻易点开

俗话说摸鱼一时爽,一直摸一直爽,作为一个程序员老司机了,一头乌黑浓密的头发还时不时被同事调侃,就靠这10个网站让我健康生活,不建议经常性使用,因为还有一句俗话,那就是“摸鱼一时爽&#xff0…

老司机必备!这款神器下载速度惊人!

奶糖猫来啦!BT磁力下载大家应该都听过吧,如果是位老司机的话,那就更熟悉了。没用过也不要紧,但用过你就会爱上Ta,下电影、下资料...都很方便,只要有你需要那份资源的下载链接即可! 今天给大家搜…

老司机必备-安卓+PC磁链下载播放工具

安利几个手机端的种子搜索 & 播放神器 小磁力BT yama试以下复联4,资源还是比较全的。 点选需要的资源,通过磁链下载, 支持在线播放磁链的APP和网站 磁力播 这个老司机不知道是没可能的,不要问我为什么,因为我也是…

被这5个资源网站惊到了!老司机秒懂!

每次遇到什么不会的东西,第一时间想到的就是--上百度!实际上我们在百度上也只会翻看前面两页,相信没有多少人会一直翻看后面的内容。这样直接导致我们搜索的内容很有局限性。 实际上我们可以在别的搜索引擎网站进行搜索,这些资源百度都不一定搜索出来!

超强、超稳、超丰富。老司机看片,咱都懂!

龙虾影视(安卓) 蓝光画质体验: 。 资源丰富度: 影视资源方面,聚合了各大影视平台的高质量影视资源,所以在这里你可以肆无忌惮的搜你想看的大片哦!片源十分丰富很nice~ TV投屏功能: 之…

这几个免费资源网站太强了!老司机们都收藏了!

简介 这几个资源网站是我见过资源最牛、最全、最丰富的网站,1000000…00T都装不下,老司机们都震惊了。强烈建议老司机们收藏!关键是都是免费的!!!本篇文章可以用来免费看片、认真学习、安全开车&#xff0…

嘘,别说话,老司机在线看大片!

又到了一年一度的国庆假期啦!先祝大家节日快乐,假期肯定少不了追剧,所以今天给大家分享一个在线看片的网站,之前也陆续分享了不少类似的网站,但大都已经失效了,今天也算是给大家补上了,这个网站…

卧槽!这 TM 才是真正的老司机看片神器!!!

今天给大家介绍一款特别的看剧网站,这个奈飞星网站可以直接免费观看Netflix上的资源。 这个网站,所有的资源都是超清画质,可以说这个网站是观看画质最高清的一个网站了。 至于电影的加载速度,在正常网络环境下,非常流畅…

数据库优化原则

最近数据库课程设计,我总结了一下数据库的优化方法,希望对有需要的人能有帮助: 1.对查询进行优化,尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where 子句中对字段进行 nul…

PHP经典面试题——数据库优化

Mysql数据库优化 PHP学习过程中或者面试过程中少不了的一个重要知识点,那就是关于数据库的优化问题,本人经过查阅资料并验证,总结了几点比较浅层的数据库优化方法,小白可以参考,大神勿喷。 忘了什么时候发现的一张关于…

数据库_EXPLAIN(查询性能优化)

文章目录 前言一、EXPLAIN是什么?二、有什么用?三、Explain 的每个字段3.1、id(必记住)3.2、select_type 3.3、table3.4、type(必记住)3.5、possible_keys3.6、key3.7、key_len3.8、ref3.9、rows(记)filter…

数据库性能优化之分布式数据库结构设计优化(一)

Gauss是MPP数据库,MPP指大规模并行处理架构,在非共享集群中,各独立节点通过网络进行数据通信协同计算,非共享集群有完全可伸缩性、高可用、高性能等优势。Gauss采用了Share Nothing架构,即集群各节点相互独立有独立内存…

数据库优化之索引

一、什么是索引 索引是对数据库表中一列或多列的值进行排序的一种结构数据,使用索引可快速访问数据库表中的特定信息。 数据库索引是创建在表的某列上的,并且存储了这一列的所有值。同时存储了指向表中的相应行的指针。 二、索引的分类 唯一索引 唯一…

数据库性能优化方案

数据库优化方案 前言数据库性能优化方案SQL 调优表结构优化硬件优化架构优化分库分表详解分库单应用单数据库多应用单数据库多应用多数据库 分表水平拆分和垂直拆分单库内拆分和多库拆分 分库分表带来的复杂性跨库关联查询分布式事务排序、分页、函数计算问题分布式 ID多数据源…

Escaping closure captures non-escaping parameter 'xx'

新版的Swift闭包做参数默认是noescaping,不再是escaping。 如果函数里执行该闭包,要添加escaping。

Escaping closure captures non-escaping parameter ‘findPeripheral‘

文章目录 1.问题2.原因和解决参考连接 1.问题 2.原因和解决 逃逸闭包前面没有加escaping关键字,加上就可以了,如下图 参考连接 stack overflow 官方文档:Escaping Closures

[plugin:commonjs] Unexpected ‘/‘. Escaping special characters with \ may help.错误分析

错误原因:样式表里使用了//作注释 解决办法:把‘//tab样式’去掉就可以了 补充:css中注释使用‘/**/’

swift3.0中@escaping 和 @noescape 的含义

swift3.0中escaping 和 noescape 的含义 开始用swift语言是很容易的,而且它确实是一门很吸引人的语言。但是随着你频繁的使用,你会逐渐接触到swift更加复杂的结构. 在swift2中,你可能遇到过noescape属性,你有没有花一点时间去理解…