【项目动态】世界冠军加持环卫智能化 深兰获IJCAI20两冠一季+最佳工业应用视频奖

2021-04-01 阅读

国际人工智能联合会议(International Joint Conference on Artificial Intelligence,简称为IJCAI)是人工智能领域中最主要的学术会议之一,在会议上发表的学术成果在整个AI领域都有深远的影响。IJCAI-PRICAI-20于2021年1月在日本举行,但由于疫情原因,本次会议多次调整议程。日前,深兰科技终于收到了姗姗来迟的荣誉,在NetML竞赛获得两冠一季的好成绩,尤其在AI视频竞赛中“深兰AI智能扫路机”获得Best Industrial Video最佳工业应用视频奖。


昨日,作为指导委员会成员,上海市经济和信息化委员会、中国智慧城市工作委员会、中国城市环境卫生协会智能环卫专业委员会、长三角产业发展研究院、AIII人工智能产业研究院和深兰科技(排名不分先后),共同倡议发起新一代人工智能环卫智能化产业联盟,旨在进一步集聚智能环卫领域专家学者和领跑企业,联合环卫清洁领域的产、学、研、用、资和服等单位,创新突破关键核心技术,加速建设人工智能环卫技术创新生态体系。深兰科技作为其中的唯一的人工智能企业,其冠军团队的技术实力,为环卫智能化的推进再添砝码!

微信图片_20210511164743.png


最佳工业应用视频奖


IJCAI-PRICAI20 AI视频竞赛作为国际会议竞赛中不多见的形式,为研究人员和AI从业人员提供了一个展示平台,以视频的方式呈现易懂、有趣的人工智能,并体现其对社会的价值。参赛者的视频在会议的展厅中循环播放,最终奖项由参会者投票和专业评委评定产生,可谓是众望所归。


微信图片_20210511164749.png


视频以深兰AI智能扫路机的第一视角,以拟人的方式模拟环卫工人一天的作息,以及在不同环境下的工作流程,巧妙地展示了机器人的自动检测目标、躲避障碍、判断交通信号、数据同步等能力,以及其背后的自动驾驶、数据管理等核心系统。视频叙述清晰,画面风格和配乐充满科技感,引人入胜。短短4分钟的视频内容丰富,以讲故事的形式让人不知不觉中了解了产品的主要信息。


微信图片_20210511164757.png


这款AI智能扫路机通过在实际交通状况下的行驶,AI智能扫路机在停车、大转、障碍物避让等方面开展了多场景测试和优化调整,已基本满足了无人驾驶环卫道路保洁的要求,目前已在上海、深圳、天津等多地投入运营。



NetML竞赛获两冠一季


NetML竞赛是由英特尔公司赞助,在IJCAI-PRICAI20上组织的一场基于机器学习的流量分析竞赛。本次比赛借助IJCAI-PRICAI20参加者的专业知识,帮助网络研究人员与ML / AI社区进行互动,促进网络流量分析新方法的研究和开发。深兰科技DeepBlueAI团队在7个赛道中取得了两冠一季的好成绩。分别在Track2和Track4获得冠军,在Track5获得季军。


微信图片_20210511164803.png

微信图片_20210511164807.png


微信图片_20210511164811.png


赛题介绍


随着互联网的发展,网络流量日益增多,同时恶意流量也在不断增加。如抢票软件、明星打榜、恶意爬虫等。为了探索更好的网络流量的分析方法,在这场比赛中,主办方NetML提供了3个不同的相关数据集(CICIDS2017,NetML,non-vpn2016),并且将label分成了3种不同的粒度,分别是top,mid 和 fine。top就是二分类区分正常流量与恶意流量;mid和fine 还需要对恶意流量进行进一步的分类。CICIDS2017数据集和NetML数据集没有mid粒度,所以一共有7个任务对应7个赛道。


评测指标


对于多分类任务:

overall = F1*mAP 。其中,F1 是每个类的f1-score乘以每个类的样本占比, mAP是所有类的平均准确率。


对于二分类任务:

overall = TPR*(1-FAR)。其中,TPR = TP/(TP+FN),FAR = FP/(TN+FP)。


赛题分析


三个数据集都是10w到50w行级别的数据量,62列特征,包含了发送接收地址与端口, 发送接收包大小,时间,hdr信息,pld统计信息,tls信息,http请求信息,dns信息等网络信息。数据集之间的区别是收集源不一样,二分类与多分类标签不一样。


经过分析,赛题有主要有以下难点:


数据处理。原始特征数量比较多而且类型复杂,包括很多类型是列表的列如dns的相关信息。如何从这类列表中提取特征是主要问题。

针对不同粒度的label提取特征。当前特征对top粒度二分类可能有用,但是区分不了剩下的多分类。


竞赛方案


自动列表类型特征提取:由于列表类型的数据是无法直接喂给模型的,所以我们对列表类型进行了聚合,从而提取了一些统计数值特征。


自动特征工程:由于原始数据特征数量较多,我们选择自动特征工程进行处理,以实现短时间内有效信息的尽量提取,并节约人工成本。我们将原始特征主要分成了类别类和数值类,并在根据类型做出不同的特征。


特征选择:经过上面两步,我们做的特征已经超过一千列了,但其中大多数是无效特征。为了避免过拟合和加速模型训练速度,我们使用了两种特征选择方法将特征减少到1/5。首先,我们通过lightgbm模型根据信息熵输出的特征重要性把这些完全没用的特征筛选出来;然后,我们选用第二种特征选择的方法是label 重排列,使用它可以筛选出一些无效的特征。label 重排列方法的主要思想是,通过label的随机打乱,并逐次学习,得到随机状态下重要性的分布,学习到哪些特征的重要性是“虚高”的。


指标优化:预测完之后,我们发现每个类别的比例与原始数据类别比例差别较大,导致得分偏低,尤其是在多分类任务中。我们就通过后处理调整阈值的方式去调整每个类别的占比。


模型融合:我们分别使用了lightgbm,catboost,xgboost这些模型。采用加权平均的方法进行融合,权重由每个单模型的效果决定。


总结


DeepBlueAI团队针对网络流量分析任务,通过数据分析、自动列表类型特征提取,自动特征工程, 在经过特征选择,指标优化和模型融合等设计了一个网络流量识别算法。该算法在本次比赛中取得了2冠1季的好成绩,有望帮助互联网识别出恶意流量,形成一个良好的网络环境。



个人用户登录 机构用户登录
账号:
密码:
忘记密码
新用户注册
会员注册
注册类型: 个人 机构








发送验证码

找回密码

发送验证码


修改密码


邮箱绑定
更换手机


委托人权限登录

由于个人隐私既客户权限问题请点击输入身份证号码进行查看您的资料