新闻中心

【项目动态】世界冠军加持环卫智能化深兰获IJCAI20两冠一季+最佳工业应用视频奖

2021-04-01 阅读

国际人工智能联合会议（International Joint Conference on Artificial Intelligence，简称为IJCAI）是人工智能领域中最主要的学术会议之一，在会议上发表的学术成果在整个AI领域都有深远的影响。IJCAI-PRICAI-20于2021年1月在日本举行，但由于疫情原因，本次会议多次调整议程。日前，深兰科技终于收到了姗姗来迟的荣誉，在NetML竞赛获得两冠一季的好成绩，尤其在AI视频竞赛中“深兰AI智能扫路机”获得Best Industrial Video最佳工业应用视频奖。

昨日，作为指导委员会成员，上海市经济和信息化委员会、中国智慧城市工作委员会、中国城市环境卫生协会智能环卫专业委员会、长三角产业发展研究院、AIII人工智能产业研究院和深兰科技（排名不分先后），共同倡议发起新一代人工智能环卫智能化产业联盟，旨在进一步集聚智能环卫领域专家学者和领跑企业，联合环卫清洁领域的产、学、研、用、资和服等单位，创新突破关键核心技术，加速建设人工智能环卫技术创新生态体系。深兰科技作为其中的唯一的人工智能企业，其冠军团队的技术实力，为环卫智能化的推进再添砝码！

微信图片_20210511164743.png

最佳工业应用视频奖

IJCAI-PRICAI20 AI视频竞赛作为国际会议竞赛中不多见的形式，为研究人员和AI从业人员提供了一个展示平台，以视频的方式呈现易懂、有趣的人工智能，并体现其对社会的价值。参赛者的视频在会议的展厅中循环播放，最终奖项由参会者投票和专业评委评定产生，可谓是众望所归。

微信图片_20210511164749.png

视频以深兰AI智能扫路机的第一视角，以拟人的方式模拟环卫工人一天的作息，以及在不同环境下的工作流程，巧妙地展示了机器人的自动检测目标、躲避障碍、判断交通信号、数据同步等能力，以及其背后的自动驾驶、数据管理等核心系统。视频叙述清晰，画面风格和配乐充满科技感，引人入胜。短短4分钟的视频内容丰富，以讲故事的形式让人不知不觉中了解了产品的主要信息。

微信图片_20210511164757.png

这款AI智能扫路机通过在实际交通状况下的行驶，AI智能扫路机在停车、大转、障碍物避让等方面开展了多场景测试和优化调整，已基本满足了无人驾驶环卫道路保洁的要求，目前已在上海、深圳、天津等多地投入运营。

NetML竞赛获两冠一季

NetML竞赛是由英特尔公司赞助，在IJCAI-PRICAI20上组织的一场基于机器学习的流量分析竞赛。本次比赛借助IJCAI-PRICAI20参加者的专业知识，帮助网络研究人员与ML / AI社区进行互动，促进网络流量分析新方法的研究和开发。深兰科技DeepBlueAI团队在7个赛道中取得了两冠一季的好成绩。分别在Track2和Track4获得冠军，在Track5获得季军。

微信图片_20210511164803.png

微信图片_20210511164807.png

微信图片_20210511164811.png

赛题介绍

随着互联网的发展，网络流量日益增多，同时恶意流量也在不断增加。如抢票软件、明星打榜、恶意爬虫等。为了探索更好的网络流量的分析方法，在这场比赛中，主办方NetML提供了3个不同的相关数据集（CICIDS2017，NetML，non-vpn2016），并且将label分成了3种不同的粒度，分别是top，mid 和 fine。top就是二分类区分正常流量与恶意流量；mid和fine 还需要对恶意流量进行进一步的分类。CICIDS2017数据集和NetML数据集没有mid粒度，所以一共有7个任务对应7个赛道。

评测指标

对于多分类任务：

overall = F1*mAP 。其中，F1 是每个类的f1-score乘以每个类的样本占比, mAP是所有类的平均准确率。

对于二分类任务：

overall = TPR*(1-FAR)。其中，TPR = TP/(TP+FN)，FAR = FP/(TN+FP)。

赛题分析

三个数据集都是10w到50w行级别的数据量，62列特征，包含了发送接收地址与端口，发送接收包大小，时间，hdr信息，pld统计信息，tls信息，http请求信息，dns信息等网络信息。数据集之间的区别是收集源不一样，二分类与多分类标签不一样。

经过分析，赛题有主要有以下难点：

数据处理。原始特征数量比较多而且类型复杂，包括很多类型是列表的列如dns的相关信息。如何从这类列表中提取特征是主要问题。

针对不同粒度的label提取特征。当前特征对top粒度二分类可能有用，但是区分不了剩下的多分类。

竞赛方案

自动列表类型特征提取：由于列表类型的数据是无法直接喂给模型的，所以我们对列表类型进行了聚合，从而提取了一些统计数值特征。

自动特征工程：由于原始数据特征数量较多，我们选择自动特征工程进行处理，以实现短时间内有效信息的尽量提取，并节约人工成本。我们将原始特征主要分成了类别类和数值类，并在根据类型做出不同的特征。

特征选择：经过上面两步，我们做的特征已经超过一千列了，但其中大多数是无效特征。为了避免过拟合和加速模型训练速度，我们使用了两种特征选择方法将特征减少到1/5。首先，我们通过lightgbm模型根据信息熵输出的特征重要性把这些完全没用的特征筛选出来；然后，我们选用第二种特征选择的方法是label 重排列，使用它可以筛选出一些无效的特征。label 重排列方法的主要思想是，通过label的随机打乱，并逐次学习，得到随机状态下重要性的分布，学习到哪些特征的重要性是“虚高”的。

指标优化：预测完之后，我们发现每个类别的比例与原始数据类别比例差别较大，导致得分偏低，尤其是在多分类任务中。我们就通过后处理调整阈值的方式去调整每个类别的占比。

模型融合：我们分别使用了lightgbm，catboost，xgboost这些模型。采用加权平均的方法进行融合，权重由每个单模型的效果决定。

总结

DeepBlueAI团队针对网络流量分析任务，通过数据分析、自动列表类型特征提取，自动特征工程，在经过特征选择，指标优化和模型融合等设计了一个网络流量识别算法。该算法在本次比赛中取得了2冠1季的好成绩，有望帮助互联网识别出恶意流量，形成一个良好的网络环境。

上一篇：【项目动态】中驰车福刘超：保修配一体化打造数字化盈利门店下一篇：【项目动态】全国首个人工智能环卫智能化产业联盟成立，深兰引领行业生态圈重构智能环卫新格局

新闻中心

【项目动态】世界冠军加持环卫智能化 深兰获IJCAI20两冠一季+最佳工业应用视频奖

委托人权限登录

【项目动态】世界冠军加持环卫智能化深兰获IJCAI20两冠一季+最佳工业应用视频奖