新闻>社会

揭秘AI鉴黄师的培养 能酌情处理裸体艺术品

2018-09-14 15:36:08    环球时报

原标题:揭秘:AI鉴黄师是怎么工作的?如何培养?

网络媒体的发展催生了一个充满神秘色彩的职业——鉴黄师,不少宅男心中的“梦想工作”。

殊不知,鉴黄师实则是一个无比艰辛的工种:熬夜、劳累、枯燥……但即便像上了发条一样地工作,他们依然越来越难满足短视频时代鉴黄堵漏的需求。

今年四月,快手、火山小视频因传播低俗信息被约谈。自此,对互联网色情内容的打击力度愈发升级。

人工智能鉴黄师(AI)便由此应运而生,AI的出现极大地解放了挣扎在鉴黄大业一线的人工鉴黄师们。

目前在我国上线的“AI鉴黄师”,不仅能鉴别黄片黄图,连带有情色信息的语音内容也能够快速捕捉。近期上线公测的阿里巴巴AI语音鉴黄反垃圾服务,不仅能支持中文、日文、英文等多国语言,还能识别东北话、四川话、广东话等方言,就连无语义的呻吟声也能识别出来。

带着满满的好奇,《环球时报》记者采访了AI智能鉴黄在图片、语音和语义三大领域的领先技术团队,请他们揭开AI鉴黄师的神秘面纱。

AI鉴黄师是怎么工作的?

在图像鉴黄领域起步较早的图普科技公司运营总监姜泽荣介绍,图像鉴黄的原理首先是要制定色情图片的分类标准,然后收集大量素材,进行分类标注,最后用这些标注好的素材去训练图片,让机器去学习各个分类里面的特征,不断调整自己模型的参数,并最终得到最佳的识别模型。

当机器对图像进行识别以后,这些图像数据会转化为数字化的信息,带入到模型里面进行计算,根据计算值将图片标注为“正常、性感、色情”三个类别。如果在人工复核环节发现机器识别有误,则会有针对性地对相同场景的图片进行数据学习,并调整参数,直到错误率达到最低值。

AI鉴黄师如何培育起来的?

早在2014年图普科技就开始利用AI来识别静态图像里的色情元素,但是早期的素材收集工作却困难重重。“公司刚成立时,一天起码有六个小时都在搜集数据,简单说,就是看黄图、黄片,然后把它们扔到数据库中。一开始我们只能依靠自身力量搜集素材,每天都在号召亲友宅男贡献出自己收藏的资源,但是来源比较单调,主要是大陆和岛国片为主。收集的关键全靠寻找‘对的人’,只要找对了人,方能以一敌百。直到后来有了客户提供的海量数据才算真正走向正轨。只有数据覆盖场景越全面,模型才能越精准。”

相比语音识别和图像识别,不良信息在语义方面的识别则发展略晚。相比之下,它却更能够捕捉语言间细微的、不易被察觉的“软色情”信号,而中文也是语义识别领域最难做的语言。专注于AI语义识别的三角兽科技公司技术总监亓超告诉《环球时报》记者,该公司目前在语义方面的“鉴黄”主要体现在人工智能交互系统当中,也就是常见的“人机对话”。

▲2018年8月3日,北京,油库公司,29岁的吉恒杉是一名人工智能标注员,他正在训练机器识别何为“接吻”镜头,因此也被戏称为“吻戏鉴定师”。图片:VCG

▲2018年8月3日,北京,油库公司,29岁的吉恒杉是一名人工智能标注员,他正在训练机器识别何为“接吻”镜头,因此也被戏称为“吻戏鉴定师”。图片:VCG

通俗点讲,当你有意想要“调戏”AI的时候,它首先会识别你的轻佻言论,其次能够迅速捕捉言语间的“雷点”,并在毫秒内做出反应和判断,以巧妙的方式规避开你的“调戏”。对于一些低俗、污秽的词句,在人机对话中也会被自动屏蔽掉。

在最初的大数据学习阶段,AI需要学习“正反语料”素材,反语料通常包括网络上搜集来的不雅词汇或污言秽语等。有趣的是,一些网络新词更迭速度过快反而成了程序员们当下最棘手的难题,“有些词昨天听着还很正常,今天就变成了敏感词汇,比如2017年热炒的的‘黄鳝女’,出事之后,我们还不能对黄鳝这个词一刀切地屏蔽,因为可能会伤害其本来意义,但还得让机器聪明地判断出这个词出现的场景和语义。这就要求我们的技术不断更迭。

亓超表示,在数据搜集难题上,他也期待未来能够和有关政府部门合作,以便收集到更多的原始素材来提高机器快速学习的能力。

由于担心儿童成为网络黄色暴力主要的受害群体,三角兽在其“儿童聊天引擎”的设计中也更加谨慎处理对内容的把控,使其内容不良率降低到万分之零点六。亓超告诉记者,在儿童应用设备中他们会屏蔽过滤掉如恋爱、结婚、怀孕等成人可接受,但不适合儿童接触的用语,为儿童营造一个安全和健康的聊天环境。

AI鉴黄的准确度和效率如何?

阿里巴巴安全部高级算法工程师威视对《环球时报》记者表示:AI鉴黄师每天可审核数亿张图片,识别准确率高于99.5%。

“举个例子,一天要审核4亿张图片的话,单纯由人工来审,一人一天审1万张,需要4万人,而AI鉴黄只需将其中20万张可疑的图片筛出来,由人工再审一道,只需要20人即可。”

图普科技姜泽荣告诉记者,AI完成鉴别分类后,只会把判断结果和概率告诉使用方,使用方再根据结果做对应处理,比如自动删除、或者人工接入复审。

AI上岗后,人工鉴黄师都会下岗吗?

作为早期的人工鉴黄标注师,姜泽荣坦言人工鉴黄师其实是一个枯燥的体力活,就像“流水线上的工人,迟早会被机器替代。AI的出现让人类把这个体力活外包出去,然后投身到更有意义的工作中去。”

不少帖子已经爆料过,由于近几年信息量的暴增和审核的严控,人工鉴黄师加班已经常态化。媒体曾经报道过有鉴黄师因为压力过大身体吃不消而向公司提出工伤索赔的新闻。

“刚开始接触大量的小黄图,确实会有生理反应,尤其是对一些心理素质不够好的年轻鉴黄师来说。”姜泽荣说。

一位有类似经历的鉴黄师也对记者表示,频繁曝光在黄色信息的网络中难免会对身体造成伤害,偶尔遇到一些比较变态的视频或图片,“会让人一整天都吃不下饭”。严重的时候,在路上看人都是马赛克。但AI鉴黄的免疫力就会强得多。

不过,姜泽荣和威视都表示,AI鉴黄尚不能完全取代人工审核,因为机器还很难理解内容背后的深意,也不会在不同文化场景中做自由切换。

“最佳的审核方式是智能为主,人工为辅。人工鉴黄师群体数量少了,目前主要做打标和审查可疑图片的工作。”阿里安全部产品专家念夏说。

色情和非色情的界限怎么把握?

无论是语音语义还是图像,在初期设计模型时会根据大众普遍接受程度来人为制订一套“色情界定的标准”。人为的标准并非一成不变,但也存在一定的主观性。

“三点式泳装则为性感,裸露胸部却只遮挡乳头则是色情,而‘以性感的姿势舔舐香蕉’这种‘软色情’则会被机器划定为‘正常’”,姜泽荣举例说明。

当被问道如何区分“性感”与“色情”,他认为在制定标准时有一条默认规则——极端性感即是色情。

▲2018年8月15日,北京,优酷公司举办“吻戏鉴定师”招聘面试,从上百份简历中筛选出来的四位候选人进入面试环节,回答关于人工智能的技术问题,还要对着屏幕分辨上百张明星脸。图片:IC

▲2018年8月15日,北京,优酷公司举办“吻戏鉴定师”招聘面试,从上百份简历中筛选出来的四位候选人进入面试环节,回答关于人工智能的技术问题,还要对着屏幕分辨上百张明星脸。图片:IC

姜泽荣介绍,在早前设计模型的时候,著名的“大卫”雕像就因其某些部位雕刻得太过于‘写实逼真’而被标定为“色情”。但是随着人们对开放性文化接受程度的扩大,机器通常会对“有裸体出现”的艺术作品温柔处理,或视情况酌情考虑,但不包括那些“明显在传播色情文化”的艺术作品,例如春宫图等。

得知AI鉴黄师上线的消息以后,有些人担心AI过于刻板的标准会对原本可以被“侥幸放行”的内容也一刀切地砍掉。有人认为,色情文化是人类的刚需,但AI无疑是将“人性的出口牢牢堵住。”

对此,姜泽荣并不认同。他认为,在我国尚未出现“分级制度”的情况下,更应该对黄色信息严格把控,“阈值要尽量调高,宁可错杀,不可错放”,以防止色情信息对未成年人的伤害。他希望家庭和学校的性教育可以不断完善,家长能对孩子的性需求有更科学的引导。

在我国AI智能产业强劲发展的今天,AI势必会以更高效的节奏做好网络安全摸查的排头兵,我们期待AI鉴黄师能为祖国打好未来每一场扫黄攻坚的保卫战。

责任编辑:费琪 CN001、路子康 CN078
展开全文
秦岭超级别墅狗舍78平酒窖都是茅台 神秘主人是他
蔡英文对参加APEC会议的台湾代表提了这么个要求
中国“人造太阳”获重大突破 首次实现1亿度运行

热点新闻

女子15年没掏耳屎 医生竟挖出如黑葡萄般“巨无霸”

2018-11-13 09:21:06

男子以为打死人提心吊胆流浪13年 原来只是场误会

2018-11-12 10:35:09

女司机回头哄孩子 车子瞬间跑偏撞向路边

2018-11-12 10:05:51

43岁女子生下第21个孩子 最大的孩子已29岁

2018-11-11 08:53:58

北京一小区自来水现大量肉虫 多位居民腹泻呕吐

2018-11-13 09:27:25

什么情况!蛟龙号7000米海试中与母船失联1小时

2018-11-11 08:54:30

日本大量幽灵船漂日本海岸:船上无人或仅有尸体甚至白骨

2018-11-13 13:34:06

假冒外卖招聘骑手:不法分子开出高薪作为诱饵

2018-11-13 13:28:09

金马入围演员名单大陆演员集体高光 香港艺人失落

2018-11-13 13:27:21

漫威明星发文悼念斯坦李 美国队长金刚狼发文缅怀

2018-11-13 13:18:12

平阴仓库爆炸原因调查中 爆炸未对大气水形成影响

2018-11-13 13:02:59

特朗普出席一战百年仪式会晤马克龙 不单独见普京

2018-11-13 12:58:43

朋友一生一起走?狱友出狱后组队作案再次被捕

2018-11-13 12:17:46

彩票中奖抛妻弃女再婚 前妻要求离婚平分彩票奖金

2018-11-13 12:17:09

罗志祥米兰达可儿同框合照 粉丝好奇他俩怎么沟通

2018-11-13 12:11:50

漫威明星发文悼念斯坦·李 美国陆军也发文缅怀

2018-11-13 12:11:20

许晴双十一晒照粉色如少女梨涡真女神:晴的11.11

2018-11-13 12:07:22

李亚鹏外公去世享年105岁 发文悼念表达相思之情

2018-11-13 11:40:06

苹果供应商股价重挫集体下调业绩预期 苹果被看衰

2018-11-13 11:36:15

云南一信用社女职员饭局后死亡:赔偿事宜达成一致

2018-11-13 11:29:40

女子吃烤鸡翅昏迷入院 出现这些症状千万别轻视

2018-11-13 11:29:22

90后宝马男打瞌睡不松油门 连铲10卡护栏撞上才停

2018-11-13 11:26:45

惊险!央视记者暗访时被跟踪,连夜举报,回电话的竟是…

2018-11-13 11:17:20

闽江学院回应外卖:商家免费发外卖 干扰校园秩序

2018-11-13 10:54:17

21岁女子虐死女儿又饿死儿子:我妈生5个也死2个

2018-11-13 10:50:22

一龙回应打假拳:脚肿了用力过大 可惜拳迷不买账

2018-11-13 10:49:30

默克尔被错认成马克龙夫人 默克尔赶紧用法语解释

2018-11-13 10:40:50

英国将征收年龄税 40岁以上65岁以上需按比例缴税

2018-11-13 10:35:57

澳洲草莓藏针事件50岁女嫌疑人被捕 面临七项控罪

2018-11-13 10:32:35

吉林特大骗保案受害者上百人 涉案金额高达上千万

2018-11-13 10:26:35

世界第一土嗨队集结!19岁国宝又放飞了

2018-11-13 10:08:00

无耻!他靠贩卖与女友的性爱视频 赚了2万元

2018-11-13 10:05:26

山东威海温泉小学食堂被指使用“黑油” 当地食药监局做出处罚

2018-11-13 10:01:00
点击查看更多