技术专栏(六):图像识别,突破社交和洞察边界



本期技术分享家

AdMaster高级研发总监 史腾飞(Stanford Shi)



上期,我有幸为大家分享了自然语言处理技术在社交和洞察分析中的应用,解读了机器读懂社交语言的奥义。本期,我们的视线仍然聚焦符号识别,不过,这次的对象,不是单纯的文本,而是非结构化的图片和视频。



计算机视觉技术对社交洞察的价值,不言而喻。目前,文本之外,图文及视频内容在社交平台中的占比越来越高,据SocialMaster数据,微博平台母婴品类的发帖里,32%的内容为图文结合,更遑论短视频及图片社交平台。图片视频数据爆发式增长,既为图像识别提供了新的应用场景,也为社交和洞察分析带来了突破。


早在2016年,AdMaster就将计算机视觉技术视为重点加以研究,将其引入社交和洞察分析领域。截止目前,已经推出logo、产品识别,视频文字识别等多个产品,成功将这些产品应用于信息检索、舆情分析、品牌热度监测等多个场景,并在不断探索场景识别和图像检索等高复杂度技术。


图像识别技术发展如火如荼,

AdMaster率先应用在社交和洞察分析领域




国际上,图像识别技术经历了两次重大升级,分别发生在2012年和2015年。



2012年之前,图像识别技术主要基于传统机器学习算法,针对应用场景人工设计特征,再使用Adaboost训练弱级分类器的级联来识别物体。2010-2011年,全球最权威的计算机视觉竞赛ILSVRC的图像分类错误率徘徊在26%左右。2012年,AlexNet深度卷积神经网络远超传统机器学习,以15.4%的创纪录低失误率夺得当年ILSVRC的年度冠军,将图像识别推向深度学习的热潮。



2015年,ResNet为了解决神经网络加深带来的训练困难问题,将residual learning的概念引入深度学习领域,以3.6%的超低错误率获得了2015年ImageNet挑战赛的冠军。这一技术也超越了人类的平均识别水平,意味着人工智能在人类舞台中崛起的开始。



具体的商业应用领域,考虑到复杂的图文及视频场景,识别的准确度不一而是。作为人工智能驱动的企业级社交和洞察分析解决方案提供商,AdMaster的图像识别技术研发,集中于实现其在社交领域的落地。


快速导入数百logo并完成识别训练,

识别准确率达90%



2016年至今,AdMaster Logo识别产品经过不断积累,可快速导入数百logo并完成识别训练,同时支持扩展自定义品牌logo图库,能够满足不同客户的实际需求。在算法上,模型构建结合前沿技术手段,AdMaster有效提升了模型的性能,识别准确率达到90%。


产品识别方面,针对复杂的真实场景,AdMaster抽象出不同类别的场景,并基于数据分布实现数据增强,综合提升了算法的识别性能。


Logo和产品识别:AdMaster Logo识别和产品识别具有高度定制的特性,可基于品牌需求定制目标产品,实现目标产品的检测和识别。在确定目标产品后,人工标注目标产品训练数据,结合数据分布特征实现数据增强,增加训练样本多样性。训练过程采用OHEM困难样本重采样策略不断调优,最终得到一个高性能的识别模型。




左图为logo识别结果,右图为产品识别结果展示




视频文字识别:文字识别是图像识别领域的另一重要任务,AdMaster文字识别技术采用先进的算法,训练数据来自各大主流媒体,能够覆盖复杂场景。视频文字识别技术通过将视频抽帧处理成图像,然后对单个图像进行文字识别,进行图像校准、内容去重、文字过滤等一系列后处理来校正文本内容,最终得到视频中目标文字信息。



左图为抖音视频截图,右图为文字识别结果展示



构建图像识别检索库,

开拓更多技术应用场景



目前,图片、视频识别技术在社交领域的研发和应用还均处于初始阶段,但伴随图文视频数据爆发性增长,这一技术的应用场景和需求必将拓展,AdMaster也在持续不断地强化计算机视觉技术储备,将最先进的算法技术引入到实际业务场景中,完善现有技术,提高整体性能。



随着图像数据海量生成,一次需求动辄要处理上千万条数据,处理数据的时间成本随之增加,基于文字信息的检索并不能完全符合图片中的真实内容。面对这一难题,AdMaster将着力研发图像检索技术,通过图像识别技术对图像进行标注,对图像和视频数据建立数据库,实现以品牌需求为导向来检索图像。



此外,AdMaster还在不断挖掘新的业务场景,创造图像视频识别技术更多商业价值。例如将图像识别技术与自然语言处理技术结合,让机器理解图片,看图说话,实现真正的智能化应用。同时,我们也在探索对图像或视频中人物的行为进行预测,以实现广告的定制化精准投放。