新闻>社会

揭秘AI鉴黄师的培养 能酌情处理裸体艺术品

2018-09-14 15:36:08    环球时报

原标题:揭秘:AI鉴黄师是怎么工作的?如何培养?

网络媒体的发展催生了一个充满神秘色彩的职业——鉴黄师,不少宅男心中的“梦想工作”。

殊不知,鉴黄师实则是一个无比艰辛的工种:熬夜、劳累、枯燥……但即便像上了发条一样地工作,他们依然越来越难满足短视频时代鉴黄堵漏的需求。

今年四月,快手、火山小视频因传播低俗信息被约谈。自此,对互联网色情内容的打击力度愈发升级。

人工智能鉴黄师(AI)便由此应运而生,AI的出现极大地解放了挣扎在鉴黄大业一线的人工鉴黄师们。

目前在我国上线的“AI鉴黄师”,不仅能鉴别黄片黄图,连带有情色信息的语音内容也能够快速捕捉。近期上线公测的阿里巴巴AI语音鉴黄反垃圾服务,不仅能支持中文、日文、英文等多国语言,还能识别东北话、四川话、广东话等方言,就连无语义的呻吟声也能识别出来。

带着满满的好奇,《环球时报》记者采访了AI智能鉴黄在图片、语音和语义三大领域的领先技术团队,请他们揭开AI鉴黄师的神秘面纱。

AI鉴黄师是怎么工作的?

在图像鉴黄领域起步较早的图普科技公司运营总监姜泽荣介绍,图像鉴黄的原理首先是要制定色情图片的分类标准,然后收集大量素材,进行分类标注,最后用这些标注好的素材去训练图片,让机器去学习各个分类里面的特征,不断调整自己模型的参数,并最终得到最佳的识别模型。

当机器对图像进行识别以后,这些图像数据会转化为数字化的信息,带入到模型里面进行计算,根据计算值将图片标注为“正常、性感、色情”三个类别。如果在人工复核环节发现机器识别有误,则会有针对性地对相同场景的图片进行数据学习,并调整参数,直到错误率达到最低值。

AI鉴黄师如何培育起来的?

早在2014年图普科技就开始利用AI来识别静态图像里的色情元素,但是早期的素材收集工作却困难重重。“公司刚成立时,一天起码有六个小时都在搜集数据,简单说,就是看黄图、黄片,然后把它们扔到数据库中。一开始我们只能依靠自身力量搜集素材,每天都在号召亲友宅男贡献出自己收藏的资源,但是来源比较单调,主要是大陆和岛国片为主。收集的关键全靠寻找‘对的人’,只要找对了人,方能以一敌百。直到后来有了客户提供的海量数据才算真正走向正轨。只有数据覆盖场景越全面,模型才能越精准。”

相比语音识别和图像识别,不良信息在语义方面的识别则发展略晚。相比之下,它却更能够捕捉语言间细微的、不易被察觉的“软色情”信号,而中文也是语义识别领域最难做的语言。专注于AI语义识别的三角兽科技公司技术总监亓超告诉《环球时报》记者,该公司目前在语义方面的“鉴黄”主要体现在人工智能交互系统当中,也就是常见的“人机对话”。

▲2018年8月3日,北京,油库公司,29岁的吉恒杉是一名人工智能标注员,他正在训练机器识别何为“接吻”镜头,因此也被戏称为“吻戏鉴定师”。图片:VCG

▲2018年8月3日,北京,油库公司,29岁的吉恒杉是一名人工智能标注员,他正在训练机器识别何为“接吻”镜头,因此也被戏称为“吻戏鉴定师”。图片:VCG

通俗点讲,当你有意想要“调戏”AI的时候,它首先会识别你的轻佻言论,其次能够迅速捕捉言语间的“雷点”,并在毫秒内做出反应和判断,以巧妙的方式规避开你的“调戏”。对于一些低俗、污秽的词句,在人机对话中也会被自动屏蔽掉。

在最初的大数据学习阶段,AI需要学习“正反语料”素材,反语料通常包括网络上搜集来的不雅词汇或污言秽语等。有趣的是,一些网络新词更迭速度过快反而成了程序员们当下最棘手的难题,“有些词昨天听着还很正常,今天就变成了敏感词汇,比如2017年热炒的的‘黄鳝女’,出事之后,我们还不能对黄鳝这个词一刀切地屏蔽,因为可能会伤害其本来意义,但还得让机器聪明地判断出这个词出现的场景和语义。这就要求我们的技术不断更迭。

亓超表示,在数据搜集难题上,他也期待未来能够和有关政府部门合作,以便收集到更多的原始素材来提高机器快速学习的能力。

由于担心儿童成为网络黄色暴力主要的受害群体,三角兽在其“儿童聊天引擎”的设计中也更加谨慎处理对内容的把控,使其内容不良率降低到万分之零点六。亓超告诉记者,在儿童应用设备中他们会屏蔽过滤掉如恋爱、结婚、怀孕等成人可接受,但不适合儿童接触的用语,为儿童营造一个安全和健康的聊天环境。

AI鉴黄的准确度和效率如何?

阿里巴巴安全部高级算法工程师威视对《环球时报》记者表示:AI鉴黄师每天可审核数亿张图片,识别准确率高于99.5%。

“举个例子,一天要审核4亿张图片的话,单纯由人工来审,一人一天审1万张,需要4万人,而AI鉴黄只需将其中20万张可疑的图片筛出来,由人工再审一道,只需要20人即可。”

图普科技姜泽荣告诉记者,AI完成鉴别分类后,只会把判断结果和概率告诉使用方,使用方再根据结果做对应处理,比如自动删除、或者人工接入复审。

AI上岗后,人工鉴黄师都会下岗吗?

作为早期的人工鉴黄标注师,姜泽荣坦言人工鉴黄师其实是一个枯燥的体力活,就像“流水线上的工人,迟早会被机器替代。AI的出现让人类把这个体力活外包出去,然后投身到更有意义的工作中去。”

不少帖子已经爆料过,由于近几年信息量的暴增和审核的严控,人工鉴黄师加班已经常态化。媒体曾经报道过有鉴黄师因为压力过大身体吃不消而向公司提出工伤索赔的新闻。

“刚开始接触大量的小黄图,确实会有生理反应,尤其是对一些心理素质不够好的年轻鉴黄师来说。”姜泽荣说。

一位有类似经历的鉴黄师也对记者表示,频繁曝光在黄色信息的网络中难免会对身体造成伤害,偶尔遇到一些比较变态的视频或图片,“会让人一整天都吃不下饭”。严重的时候,在路上看人都是马赛克。但AI鉴黄的免疫力就会强得多。

不过,姜泽荣和威视都表示,AI鉴黄尚不能完全取代人工审核,因为机器还很难理解内容背后的深意,也不会在不同文化场景中做自由切换。

“最佳的审核方式是智能为主,人工为辅。人工鉴黄师群体数量少了,目前主要做打标和审查可疑图片的工作。”阿里安全部产品专家念夏说。

色情和非色情的界限怎么把握?

无论是语音语义还是图像,在初期设计模型时会根据大众普遍接受程度来人为制订一套“色情界定的标准”。人为的标准并非一成不变,但也存在一定的主观性。

“三点式泳装则为性感,裸露胸部却只遮挡乳头则是色情,而‘以性感的姿势舔舐香蕉’这种‘软色情’则会被机器划定为‘正常’”,姜泽荣举例说明。

当被问道如何区分“性感”与“色情”,他认为在制定标准时有一条默认规则——极端性感即是色情。

▲2018年8月15日,北京,优酷公司举办“吻戏鉴定师”招聘面试,从上百份简历中筛选出来的四位候选人进入面试环节,回答关于人工智能的技术问题,还要对着屏幕分辨上百张明星脸。图片:IC

▲2018年8月15日,北京,优酷公司举办“吻戏鉴定师”招聘面试,从上百份简历中筛选出来的四位候选人进入面试环节,回答关于人工智能的技术问题,还要对着屏幕分辨上百张明星脸。图片:IC

姜泽荣介绍,在早前设计模型的时候,著名的“大卫”雕像就因其某些部位雕刻得太过于‘写实逼真’而被标定为“色情”。但是随着人们对开放性文化接受程度的扩大,机器通常会对“有裸体出现”的艺术作品温柔处理,或视情况酌情考虑,但不包括那些“明显在传播色情文化”的艺术作品,例如春宫图等。

得知AI鉴黄师上线的消息以后,有些人担心AI过于刻板的标准会对原本可以被“侥幸放行”的内容也一刀切地砍掉。有人认为,色情文化是人类的刚需,但AI无疑是将“人性的出口牢牢堵住。”

对此,姜泽荣并不认同。他认为,在我国尚未出现“分级制度”的情况下,更应该对黄色信息严格把控,“阈值要尽量调高,宁可错杀,不可错放”,以防止色情信息对未成年人的伤害。他希望家庭和学校的性教育可以不断完善,家长能对孩子的性需求有更科学的引导。

在我国AI智能产业强劲发展的今天,AI势必会以更高效的节奏做好网络安全摸查的排头兵,我们期待AI鉴黄师能为祖国打好未来每一场扫黄攻坚的保卫战。

责任编辑:费琪 CN001、路子康 CN078
展开全文
使用头条App阅读体验更佳

热点新闻


第一艘外国军舰来啦!新加坡“坚强”号抵达青岛
海军节前国产航母出海,为何悬挂“日本国旗”?
台"海巡队"朝大陆渔船开枪 扬言要强力阻止"越界"

热点新闻

荒唐!男子来见异地女友 结果却在旅馆干起这事

2019-04-18 16:01:45

男子女厕偷拍 被抓居然说“我很有原则 绝不传播”

2019-04-18 08:44:48

昏迷两年七个月 植物人醒后第一句话:我爱你妈妈

2019-04-17 16:22:12

男孩在母亲面前跳桥自杀 母亲没能抓住他跪地痛哭

2019-04-18 09:57:23

旧电饭煲被老婆以旧换新 丈夫立刻报警:里面有钱

2019-04-19 17:23:10

马国明获街坊加油,调整心情拍新剧!

2019-04-19 17:05:16

许志安演唱会及商演全部暂停损失高达数千万

2019-04-19 17:03:45

毒驾撞交警案一审获刑四年九个月

2019-04-19 16:47:15

巴黎圣母院火灾调查:延时摄影关键线索

2019-04-19 16:32:23

苹果隐瞒需求下滑尤其是在中国市场遭遇诉讼

2019-04-19 16:21:47

邓紫棋成立工作室 邓紫棋大方官宣工作室获粉丝力挺

2019-04-19 16:02:18

中戏偶遇易烊千玺刘昊然同框 李兰迪、张雪迎也在场

2019-04-19 16:00:55

真人版阿拉丁定档将同步北美于5月24日公映

2019-04-19 15:57:57

吴亦凡晒大碗宽面吴记面馆今日正式开张啦

2019-04-19 15:48:40

航班大面积延误蓝色预警 广州白云机场取消航班

2019-04-19 15:44:39

保剑锋被粉丝送鹅 工作室晒出大鹅照片:鹅已找到并妥善安置

2019-04-19 15:37:40

韩国江原道4.3级地震

2019-04-19 15:32:55

足协重罚球员李帅停赛6场罚款人民币6万

2019-04-19 15:30:16

杜兰特38分7次助攻,库里得到21分和5个篮板

2019-04-19 14:57:00

澳门特区立法会主席贺一诚参选特首

2019-04-19 14:54:50

上海90后妈妈产后给栏杆织毛衣 曾患上产后抑郁

2019-04-19 14:53:09

丈夫忘买鸡腿被妻捅死 表哥:被妻子扇耳光,他也不敢动

2019-04-19 14:13:56

大别山区扶贫路

2019-04-19 14:04:21

首艘国产航母海试 成功完成系泊动力作战保障任务

2019-04-19 13:48:44

澳门特区立法会主席贺一诚参选特首 选举定于8月

2019-04-19 13:43:31

梵高被盗画作展出 17年前被盗梵高画作重回博物馆

2019-04-19 13:39:42

张一山光头看起来更有男人味 其实是为拍摄古装戏

2019-04-19 13:31:40

金像男配沈威病危 转往京城ICU抢救 插喉无法说话

2019-04-19 13:25:03

黄心颖关微博评论 半小时前男友还发文努力工作

2019-04-19 13:18:24

郑秀文原谅许志安:婚姻中重要一课 原谅彼此错误

2019-04-19 13:09:49

巴基斯坦武装分子劫持大巴 至少14名乘客被枪杀

2019-04-19 12:49:27

昆凌拒认黑寡妇演员:斯嘉丽不可替代 我超爱她

2019-04-19 12:46:40

腾讯代理Switch 针对Switch上市计划腾讯不予回应

2019-04-19 12:21:01
点击查看更多
`
中华头条
官方
5.0分 1.8亿人在用
优质 安全 免费
`
中华军事
官方
5.0分 2.6亿人在用
优质 安全 免费