每经记者 左 越 每经编辑 肖鴻月
随着2017中国上市公司口碑榜第二阶段评选的截止日期(9月20日)逐渐临近,这一阶段的大数据筛选也进入到了冲刺时间。
根据最新进展,慧科讯业的大数据筛选已经完成了数据机打和复核工作,目前数据统计工作已经启动。所有大数据筛选工作完成后,2017中国上市公司口碑榜600家入围上市公司名单,也将在9月20日正式诞生。
距离600家入围公司名单出炉,仅有一步之遥。究竟是哪600家上市公司将成功闯关大数据筛选?让我们拭目以待。
数据统计工作现已开启
自8月21日,2017中国上市公司口碑榜跨入大数据筛选阶段,在过去三周的时间中,慧科讯业完成了对1236家上市公司“政治关”的扫描以及1205家上市公司“舆情关”的数据采集工作。
距离口碑榜第二阶段的第二次筛选结果出炉,仅有最后一周的时间,慧科讯业的大数据筛选也正在紧锣密鼓地进行中。慧科讯业相关负责人也向《每日经济新闻》记者介绍道,根据最新进展,已经完成了数据机打和复核,最终的数据统计工作现在已经开始。
据悉,这一阶段的“数据机打和复核”工作,与此前报道过的“舆情关”筛选进展密切相关。
上周,慧科讯业通过对1205家上市公司设置相应的关键词,采集新闻数据。最终关键词量超过6000组,采集到的新闻量超过了175万条。在完成数据采集之后,根据此前《每日经济新闻》与慧科讯业共同讨论确定的正面、负面、重大负面的判断标准,以及相应描述和示例,慧科讯业随机抽取部分新闻,供资深财经编辑根据双方确认的标准,对6000条新闻样本进行人工标注——标注其新闻性质为正面、负面还是重大负面等,以供机器学习。
此后,AI机器根据人工判断新闻的素材进行学习,不断调整模型和算法,达到理想的准确率和召回率水平。
在AI机器对全部新闻数据进行情感判断的过程中,AI会对把握较低的新闻打上相应的“Confidence”标签。例如,标记“1”为没有疑问;低于“1”则表示机器有疑问。人工则会对“Confidence”标签有疑问的新闻进行重点检查,最终完成所有新闻的情感判断。
600家入围名单下周出炉
在大数据筛选阶段的人工复核工作完成之后,正如慧科讯业相关负责人提到的,大数据筛选的最终数据统计工作也逐渐展开。