公开课笔记 | 如何运用商品识别技术重塑新零售关键节点？

摘要

什么是商品识别技术？它将重塑新零售哪些落地场景？

以下笔记整理来自于码隆科技研发副总裁魏颢于 intelligence plus 公开课的分享。

我们公司成立于 2014 年，我们的 CEO 黄鼎隆博士，是清华大学工业工程系的人工智能方面的博士。我知道今天在座的也有一位他的师弟。我们的 CTO 是 Matt Scott，他是一个美国人，是来自纽约的一位犹太好伙子。然后他是在 MSRA 工作了大概有 10 年的时间，有很多的技术积累。

魏颢码隆科技研发副总裁

所以，我们的黄鼎隆博士和 Matt Scott 先生合作，一起做的码隆科技。他们在做这个事情的时候，其实人脸识别这个事情大家已经做了 30 年了。在那个时刻真的好像是感觉落地了。但是，正因为研究时间太长了，技术已经很成熟了，竞争公司也太多了，已经是一个红海的状态了。

我们作为一个新兴企业也希望能找到一个新的战场，能给我们更大的空间。大家可以想一下，生活中除了人以外，还有重要的一样东西就是我们的商品、货品、物品，所以我们聚焦于怎么用图像识别的这些方法，来解决这个商品识别领域的一些问题。

所以，这个是我们公司的一个特点。最后我们在谈到商品识别和新零售的关系这一点，其实商品识别涵盖的内容还是蛮多的。不止是新零售，新零售我感觉去年之前可能谈得都没有那么火，但是去年一下特别特别火，很多的大企业都开始有一些新概念的便利店，包括一些无人便利店会出来。

包括去年的时候，无人货柜也是一件很火的事情，但是今年回头去看，很多的无人货柜的概念，包括便利店的概念，其实都有限。有一些人步子迈的太大了，以至于现在可能会有一些问题，大家可能也很悲观。我们的产品经理说过，现在整个社会的风口都会对无人风口这一块，和无人结账包括便利店这一块，其实负面的声音很多，他不知道在这个时间点我们公司聚焦于这个事情，会不会给大家一个误导，我们公司走错了方向。但是，我是这么想的，技术是一个长期积累的问题，人脸识别我们积累了 30 年，商品识别这个概念其实也就是这一两年才出现的，是随着新零售的出现而出现的，真的有可能是要做 30 年的时间。

所以，我相信在未来，一说到超市、便利店，包括我们的购物，它一定是我们理想中的，完全自助式的，像 Amazon go 这样，人进去我拿了就走这个样子。只不过我们可能还需要积累，所以我不担心一段时间内，这波可能步子迈得太大了，导致有一些问题的情况发生，但是长期来看，我坚信最终这会是一个很棒的未来，所以我们要坚持的走这条路。

现在，我就开始给大家根据我 PPT 要介绍的内容，来给大家讲一下，商品识别和新零售。在这个里面，我们列了五个点：

第一，我们要解释一下，什么是商品识别。因为，我一谈这个概念，我估计在座的每一个人都有自己的想法，我们也是做了很多的研究，我们也有自己的想法，但是我相信在这一点上，因为大家处于传统行业，可能没有专门去做这个事情，但是我是专门做了一些商品识别是什么这件事情的研究。

第二，深度学习已经是一个 10 几年前的技术了，包括它最火的时候是 2012 年，AlexNet 出来的时候，但是到现在也是有 16 年的时间了，其实我们要看的不是一个新技术，我更多看的是一些成熟的技术，怎么样去解决各种各样的问题。所以，这里我会介绍一下我们现在图像识别中一些成熟的技术，我会在商品识别中怎么使用它。

第三，我到了任何一个地方我去跟人家讲的时候，人家都会问我，说你们跟人脸识别有什么区别，商品识别跟人脸识别到底哪个难，这一点我要给大家去做一些区分。

第四，我们为什么会选择这个赛道？我们为什么会觉得商品实际上对未来，对人类生活的改变意义重大。

第五，我这里写的是重塑新零售哪些落地场景，我会把我们现在的一些，已经落地的，不管是刚需还是软需，这种已经落地的产品形态给大家介绍。因为，毕竟商品识别也好，新零售也好，其实时间还蛮短的，尤其是把人工智能这个技术应用到这个领域里面，时间也是蛮短的。
确实，我们发现有很多难以落地的地方，有很多客户找来的时候，他提出的需求太特别了，太特别了很难规模化。但是，我愿意把这些成功和识别的，或者我们已经做完的一些事情跟大家分享，希望能激发大家的一些灵感。

将来大家在自己的行业中，去做一些更容易规模化的，可以很好的解决用户需要的这么一些点。这里我其实一直有一个看法。很多人都说现在的世界是 AI+什么，比如说 AI+医疗、AI+教育，但是我觉得从一个技术出发，让技术人去找每一个领域的痛点，去解决他们的问题，可能是一个麻烦事儿。

因为，这种关键太聚焦于技术了，他不知道行业的痛点，他总觉得行业的很多东西，我招几个人就可以解决吗？或者说这个事情值得解决吗？他会问很多这样的问题，我反而认为，这个词我们要反过来看，我希望是咱们处于各个行业的行业专家，用行业来+我们的 AI，只有你们知道，真正的行业痛点是什么，只有你们知道什么地方才是最需要视觉的，我们才能更好的解决现在的一些问题。

什么是商品识别？

跟商品密切相关的几点：

第一，我们来讲一下什么是商品识别，其实这不是一个新的概念了，很早以前大家都接触过它了。比如说最简单的，商品的 Logo，每一家企业他做了一个产品以后它都会有 Logo，耐克、阿迪达斯都是这样的，他们通过 Logo 让别人认知自己的产品。

第二，就是我们传统说说的一维码和二维码，UPC 和 EAN 实际上本身都是一维码，我们通过一维码来识别这款商品是什么。

第三和第四可能大家在日常生活中可能碰特到，好像商品识别仅仅限于前两点，其实不是这样的，在第三点，我们是对商品的质量是有一个基本的要求的，比如 ISO9000 的这种体系，然后去对这个商品质量去做定义。

在这个里面，其实有很多人工智能可以帮助提高商品质量这方面的一些想法。

第四，这个商品最终是要流通的，流通难免要进行跨界流通，我从中国到美国，从美国到中国，甚至是到日本，各个国家都会商品是什么有一个自己的定义，当然现在会稍微统计一点，这个叫 HSCode，会对商品有一个固定的定义，根据商品的流通环节会去考虑它的税收问题、危险程度，各种各样的相关问题。

所有这些其实都是商品识别所涵盖的内容，这是一个传统来看，我们这个商品识别是什么。
所以，用一句话来说，商品识别就是要识别商品及其相关属性，这是很重要的一点，这也是跟人脸识别有很大不同的一点。你会发现人脸识别，它重要的一点是什么？确认人脸的身份，当然他也会确定一些相关的属性，人的种族、年龄、性别，但是相关的属性你可以想象就是这些，不会再多。

但是，对于商品来说，他的属性多不多，会跟类别、质量、产地、规格、商标、外观设计都相关，所以所有的这些也是我们看好商品识别领域一个重要的因素，这个市场很大，它永远大于人脸市场，它有很多可做的事情，所以我们现在做的就是想用计算机视觉与 AI 的技术，来去做识别商品以及相关的属性，所以刚才这一位朋友刚才问的是商品流通领域，我的库存、数据怎样流动，其实那个只是商品识别中流通环节的一小部分，其实还有这么多的东西都是我们关注的。

商品识别会用到哪些计算机技术？

下面就给大家讲一讲，商品识别里面会用到哪些计算机的技术，最传统的技术其实大家都知道的，条形码、二维码、OCR，其实也蛮方便的。

OCR 跟前面两个有一点区别，OCR 这个技术还是发展中，可以说会成熟一些，但是也没有成熟到我随便拿一个东西，我随便一拍照、一扫，我就知道是什么的地步，离这个还有一些距离，但是条形码、二维码是相对来说比较成熟的，它不是一种视觉技术，它实际上是一种标准。

只不过我们把这个标准通过一些视觉的方法来展现出来了。

但是，可以想象一下，条形码、二维码最大的问题是什么呢？我要想使用这个东西，首先我要有一个标准化的体系，我可能要有一个组织、机构，跟大家达成共识，比如说像我说的 UPC 和 ENA，这样的机制，全球所有的商品厂家都要认可这个机制，这个是积年累月可能持续了好几十年才定下来的这么一套标准。

其次我所有做这个二维码、条形码的话，无形之中我要给每一个商品增加额外的开销成本。然后更重要的是，我在使用的时候，我需要额外的设备去识别。

我忘了哪位朋友问的一个问题，既然商品我可以用二维码、条形码来识别，我为什么还要计算机视觉来识别？我先解释一个这个问题，我这是这么看待的，不一定对。其实对于我们一个终端消费者，毕竟商品最终的 Consumer 是我们终端的消费者。
你无论是买帽子也好，买一个方便面也好，你最终是我们这样的一个消费着，在我们的概念和意识中，我们会 Care 条形码和二维码吗？我们不 Care 这个事情，这个条形码、二维码完全是商家为了自己的管理方便，或者是整个商品体系流通的方便强加给我们的概念，我们不得不接受。

包括你现在去盒马鲜生他有自助结帐的地方，你要拿二维码去这个屏幕上去扫，但是这个事情就强制我去了解这个东西，使用这个东西。但是，我们最终的理想是，我们希望像 Amazon go 那样，用户只要拿着就走。他本不该知道二维码，那就不让他知道二维码，这是我们的一个理想。

现在我们都会说深度学习或者用计算机视觉来解决的商品识别里面的一些问题，其实本质上，我们有 5 大基础的，计算机视觉的技术：图像搜索、实体检测、标注与分类、语义分割，最后是我们的视频流的实体追踪。

实际上这 5 个，毫无疑问是我们会在商品领域里通过互相组装和定制来使用它们来完成我的一系列商品识别工作，但是这 5 个，我估计可能在座的人并不是图像识别相关的专家，可能没有概念，这都是什么？所以，我们先介绍一下是什么。

第一，图像搜索，它做的是什么事儿呢？就是我帮助我的客户，建立一个以图像为基础的数据库，这是一个我们帮助我们家具的客户建立了一个数据库，里面有各种各样的家具。他的客户用户会提交一个照片，照片里面包含了某一种东西，我们帮他判断，是不是在数据库中，以及数据库中，哪些的图片或者是商品，跟他所提交的需求是最心思的。

这个就是图像搜索所完成的任务。

第二，图像分类，这个说的简单一点，你给我一张图，我来根据预先定义好的一组的标签、定义，来告诉你，这张图符合哪一个标签。这是我们给我们另外一个电商客户做的一个案例，它想做什么呢？我就讲讲它最终落地的那个产品是怎么用到技术的。

他要做什么呢？

首先，他想知道这张图里，你有他们的电商图，我想知道这个图里有没有模特。所以，第一个计算机视觉图像分类模型给出的结果，我告诉你这是一个模特图，而且准确率是 99%，它一定是一个模特图。

然后因为有很多的模特图，有的是半身图，有的是全身图，还有的模特是背对着摄像头拍的图，他想知道，当天的这个模特到底是什么样的姿势，所以我们会给他一个新的模型，判断这是一个上半身的图，这也是准确度 100%，肯定是一个上半身的图。

最后，他想判断这个图是正面还是背面的，毕竟都是上半身我也可以背对着大家，他需要一个算法来帮他判断，这个图里面的模特正对着大家还是背对着大家，我们依旧给他一个判断，我们认为是前面。但是，这回的准确度只有 79%，这个准确度或者什么东西不重要，但是大家可以看到，我所谓的图像分类就是一个概念。给一张图，我帮你把它放到你定义的标签中的某一个去。

第三，图像检测，我讲的这个技术的顺序你会发现是越来越难的，刚才你给我一张图，我只要告诉你图里面的东西是什么，但是我现在不但要告诉你图里的东西是什么，我还要告诉你图里面的东西在哪里？比如说，判断图片中的人、狗、桌子、刀子都在什么位置。

我们生活中很多的商品其实都是带包装的，我们怎么会利用这些包装来识别这些商品？其实我们是学习着大量的数据，在学习数据的时候，会有很多的数据让我们的标注员进行标注，就是指让一些对这个商品会有一定了解的人去帮我们做标注，他会在整个图片中去标出来整个物体的框。

有了标注，实际上我们在实际应用中：

首先，我们可以判断这个物体在图中的什么位置。

再一个，我们可以精确的判断出，这个物体最能表达他特征的东西是哪一块，这样的话我可以结合我刚才说的搜索技术，或者是其它的一些相应技术，来去判断这个物体是什么，这个就是所谓的图像检测。

第四，语义切割，这个就比刚才又难了一步，大家可以看到，我刚才是用一个方块，来去标注图中一个物体的位置。但是我通过语义切割的技术，我可以找到以类别为单位的，精确到像素级的这个物体的位置。

比如我可以找到这一组人他们的位置，这个就不是一个方块的概念了，是真正的把他们都通过像素的方式来标出来了，包括车、沙发，这个要比刚才更难。

下面还有一些技术，一个是图像标注技术，图像标注技术其实很像图像分类技术。刚才我说的半身的模特，19 个模式或者是不是上半身的那个技术叫图像分类，这个叫图像标注，图像标注比图像分类更难的是，它输出的不是一个标签，而是很多多的标签，用来代表这幅图中有一些什么内容，比如说像这幅图，大家一看，这个是我们输出的标签，基本上还是比较吻合这个图所包含的内容的，但是信息量很大。

这个是另外的一种图像标注，这种图像标注是指给特定的物品，刚才这个事情我们叫通用标注，就是你认为给我一张图，包括我现在拍一张图，它可以告诉我，图片里面有什么。比如说，我现在拍一张图，很有可能会告诉是会议室，然后有人群，然后这个就叫通用标注，但是有很多特定领域的客户，比如说我们服务最多的是电商的服装领域。

他们有很多的需求是判断服装的颜色、类别、以及图中的风格、标签，所以这个我们在标注的技术上会做一些跟行业相关定制的一些特点。比如说这个地方各我们会判断她穿的是宽腿裤、T 恤衫，以及它们的颜色是多少，包括他们的标签内容。

这个高跟鞋因为我截图的时候，没有截出来，下面是有一个高跟鞋，这个是属于特定领域的图像标注技术。所以，这幅图我刚才多多少少已经给大家讲解过了，这个就是相当于我用各种各样的技术来去判断这个物体的物质，以及他的类别，包括它的核心区域，我们可能会加入一些商标检测，它是什么东西，肯定还会用到 OCR 这个技术，来去识别它的相关一些信息。

这样我就基本上把一个商品做成一个画像，我可以知道它是什么东西了。

总之我是通过这个技术来识别不同东西的，不同属性，这一点要强调了什么呢？跟人脸不太一样，你会发现，如果你去看人脸相关的一些技术的话，过去 10 几年可能人脸的特征点，它是一个几十、几百这么一个维度，现在可能计算机的速度会更快了。他会说人脸不会取几百上千这么一个特征（点位），所以你可以认为它的特征还是比较固定的，包括人的喜怒哀乐、岁数，这些信息其实蛮固定的，我只要是人都会具有这些信息。

商品最大的困难是什么呢？不同的商品有不同的特征。你会发现，我做服装、家具，毫无疑问它的样子很重要，完全能代表它。即使不能代表它的细节，也要代表它的类别。

但是，你会发现珠宝这个东西，你就不能说，完全看他的样子了，你要看他的材质，甚至你要看一些成型珠宝的时候，要看见一些正面、反面、侧面各个角度的细节。如果你不关注细节的话，你很有可能把两个不同材质的珠宝的首饰认成一种珠宝首饰。
所以，不同的产品我们有不同的关注点，这个也是商品识别比较难的一点。
商品识别技术能解决什么问题？

下面我来给大家介绍一下，现在我们在解决各个领域中，能解决的一些问题。

快速消费品

这个是我给我们商超的一个客户去做的一个技术。大家可以可以看到这里，当我们这位产品经理把东西放进去的时候，我们会实时的检测都有什么东西。目前这个技术正在给一个美国比较大的超市客户去做试用，他要解决的地方不是结帐。

因为，大家会问一个问题，假如说东西相互堆叠怎么办？那肯定也是没有办法的，恰好这个客户需要的不是一个结帐的概念，因为结帐的概念，如果你要是相互堆叠，没有检查出来，扣费没有扣到的话，会有损购物体验。他要解决的是什么呢？是重要货品丢失的问题。

用户会自助结帐，结帐以后他会再把车推到一个摄像头下，我们会判断，在车中的重要物体跟他结帐的时候，帐单是否一致。确保他不要有一些东西没有结帐，盖在下面拿走。我们发现，我们这个技术最大的一点是，如果发现有两件商品是堆叠的话，我会报警，会让他重新把堆叠的物体分散开，再次扫描。是做这么一件事情。无论商品是平坦还是竖起来，其实都是可以去做检查的。

服装、时尚商品

刚才是一个零售领域的一些技术的展示，我们现在看一看，服装和时尚商品相关的一些展示。

现在我们有很多的电商，尤其是卖服装类的客户，用的技术基本都是这套技术，无论是什么样的照片，如果他能拍一张给我们的话，我们会判断，照片中有哪些东西，包括类别。然后帮他去在他的数据库中去找相关匹配的衣服。

家具、建材

再有的话，是家居的领域，但是家居的领域，大家看到这个 Demo 会有一点像刚才的，但是是一个实际客户的演示。也是在家居领域你给我任何一张图片，我都能立刻识别出来这个图片中的主要家具，比如说顶灯、吊灯、桌子、各种灯都可以拿到，这样客户可以允许他们的客户在他们的系统中寻找类似的商品。

艺术品、玩具

这个是艺术品和玩具相关的，玩具我们相对于现在做得还少一些，其实玩具这个东西，很适合视觉的识别和检测。这是我们给做陶瓷的一个客户，定做的一款产品。也是我们有大量的数据，然后通过学习，然后把他所需要的，任何一个陶瓷工艺品上的数据都帮他识别出来。所有的这些属性都由他们的专家来定这些属性，我们是把专家他们以前分析的图片数据拿过来了以后进行了学习。

五金工具

然后包括五金工具，虽然我这里没有 Demo，但是我们跟很大的一家五金工具有一个很大的电商叫米思米，它是一个日本的企业，很大的一个电商，签订了一个战略合作协议。去推进五金相关这些工具的识别的工作。

出版物

最后一块就是出版物，出版物现在相对来说会简单一点，因为封面和里面的图，它本质上是一种不可变形的物体，它不像沙发、衣服，其实是一种柔性物体。它本真是可以变形的，所以它各种光照的影响和变形以后的效果，肯定跟你学习的时候不一样，会造成一些难度，但是出版物相对来说会简单一点。

这个方案其实就是通过报纸上的一些图片，来触发一些更丰富的媒体展示。

商品识别与人脸识别有何本质区别？

现在是谈到了第三个议题，就刚刚跟大家谈到的，很多人都会问人脸跟商品识别差异在哪里？我觉得主要是从两个方面考虑这个事情。

第一，我已经谈到了，对于技术来说，人脸的技术相对来说比较稳定、固定，可规模化，因为人脸的特征点，其实刚刚我说了，长年以来一直是一个点位，可能最近几年会多一些，但是这个技术还是这样的一个技术、思路。所有的人脸都是用这个技术来解决，可能会增加一些图像增强，但是基本上技术的体系是这样的。

包括我刚才说的人的喜怒哀乐这些信息，也相对来说是比较固定的，但是刚才给大家展示这么多的视频以后，大家也可以理解到，商品领域其实分了很多不同的种类五金类、家具类、珠宝首饰类，每一种类别都有自己独特的特征体系，这个是他最大的一个难点。

没有统一的特征体系，意味着我做家具行业要把它做好，可能等同于我要把人脸这个领域做好，这个规模就很大了，就很复杂了。

第二，人脸检测这个东西，虽然我可以判断他的喜怒哀乐，做一些更丰富的人的检测，比如说这个人他买了这个商品以后，他满意不满意、开心不开心，这样的检测我是可以做的。但是，总体来说，现在人脸识别最落地的还是用于判断人的身份。是不是这个人？这个人是谁？解决这个事情。

但是，就像我刚才说了，识别商品，以及商品的属性，属性中的种类太多了。商品的身份只是他特有的属性之一，我同时还要解决全环节各个方面的内容，比如说我要解决的是一个质量问题，我要解决的是一个管理问题。

比如说在这个作用领域，他的涵盖程度复杂程度，以及他的商业价值，远远高于人脸识别。这个是一个壁垒。现在这里其实我没有谈技术壁垒，因为商品识别，包括你说人脸识别是不是一种技术壁垒，我觉得现在人脸识别技术太成熟，也没有竞争壁垒。更多的可能是我们资源行业里面，比如说技术进入安防行业，他们硬件资源的积累已经很长时间了，这个壁垒已经形成了。人脸识别的一些独角兽，我用什么办法去突破这样的壁垒，去赚取我们的一桶金或者两桶金，这里面有很多的问题。

商品识别的壁垒是什么？

行业数据

其实商品识别也有类似的壁垒，我先讲右边的这个概念，其实有很多的商业数据是我们拿不到的，比如说我们要去做汽车质检，这个数据以前是没有人去采集的，以前是通过肉眼去看的，所以他们不会去拍照，所以就没有采集这个环节。
这个时候我们怎么去挖这样的一个行业数据，因为没有图片、没有视频，我的图像识别就弄不起来，所以我怎么去帮助这个行业去建立这样的采集机制，可能是这个行业要面临的一个问题，所以这个是我说的行业的数据的壁垒，然后再就是规则的壁垒。

规则标准

比如说我们在服装领域、时尚领域，有一个概念是色系。可能大家会听说一点潘多色系或者 NCL 色系，这些色系都是世界闻名的一些色系，就是任何一家买卖，你要说这个布料是什么颜色，你要说我想把衣服做成颜色，你不谈这个色系基本上是不行的。
所以，有很多人做这个生意，他都会把色系够构成一个册子，然后会把上面的解读，以及每年新的色系，标注了相关的一些趋势分析，然后把这个东西也作为一个咨询类的一个产品去售卖。如果你想为我们做事情的话，那你就必须去遵循这样一个行业的规则和标准，然后再比如说我们做的最多的是时尚标签的。

比如说我们会做的，在我看来有什么样的衣服，是长袖、段袖，是珍珠衫还是蝙蝠衫，都做了很多这样的东西，但是我们如果仔细观察的话，现在最大的天猫、淘宝，还有京东、唯品会这些，他们的标签体系都是不一样的。甚至就跟刚刚说的，天猫和淘宝他们的标准体系都是不一样的，这个时候就意味着在这个行业里面，这个地方还没有一家形成一个规范，我怎么定义服饰上面细节的标签？
意味着我现在针对京东的标签体系我做出一套系统，可能唯品会他就不会买单，可能一些其它的电商不会买单。到了国外以后，可能亚马逊他们觉得我有自己的体系，我为什么要用你这个体系。所以，这就是属于刚才我说的，整个这个行业里面的标准，会成为阻碍技术推动的一个因素。

识别能力

所以，这个是一些关于行业和标准的一些壁垒。其次从技术角度和产品的角度来说，我们这样看。技术的壁垒，刚才我说了人脸识别最好的是什么呢？他识别了 30 年，而且相对比较标准，我的一套技术或者一套框架，我可以解决一批问题。
但是，我的商品种类太多了，我没有一个方法、一个框架，可以解决一批问题，甚至都是家居领域，可能我针对地毯和我针对沙发这两样东西，我要解决的方案可能都会不一样。除此之外一旦到了商品，比如说人脸的话，你可能会发现，除了安防的摄像头以外，平时的时候我们最多的还是自拍。

或者说，滴滴司机我第一次我要去认证一下，会把手机要放在自己的脸前，所以这种情况下，其实光照和脸和摄像头之间的距离其实新对来说是固定的。所以，它对模型的泛化要求会低一点，什么叫泛化要求？是说的这个模型，我在灯光很好的情况下，或者灯光不太好的情况下，或者是有背景比较复杂的情况下，或者背景跟我训练时候不一样情况下，在这些完全跟我一开始训练和获取知识的时候，不一样的情况下，这种情况我还能不能识别他？一个泛化好的模型，其实它会对这种干扰因素，会有一定的冗余度，我不会受它的影响很大。

所以说，在商品识别里面，它不会存在一个用户跟设定之间的关系是固定的，或者光照还是固定的情况下。很有可能是，我在这个地方拍一个沙发，但是明天很有可能发生的是，这个沙发被放在一个角落里面了，我再拍一个沙发，这个时候光照的影响会蛮大的。

所以，它会对模型的泛化要求会很高，这一块也是我们不断的再学习和加强的一个壁垒。我们希望把泛化的这件事情能解决的更好。再其次的话是说，现在大家都知道，我们所有的机器学习或者人工智能，我们都是叫监督学习。什么是监督学习呢？

首先我有大量的数据，很多很多的数据，成百万上千万的数据，为这些数据需要进行标注，可想知道，所有的标注都是由人来完成，所以有一句戏言说，有多少人工才有多少智能。到目前为止这是一个真实的事情，我需要大量的人工标注。

这个时候，经常会有客户说，你们需要多少数据，我可以把数据给你，你需要多少数据，我帮你把数据给你，帮我训练一个模型。我们说，需要 10 万的数据集，客户一听那我做不成这个事儿了，因为客户手上很有可能没有这么多数据，即使有这么多数据，又让谁来标注呢？

所以，这个是所有的人工智能公司现在面临的一个问题，我们现实的数据没有这么多，标注质量没有这么好，噪音很大。这个时候有一个技术叫弱监督技术，或者是叫半监督技术，我们怎么样通过更好的数据，噪音更大的数据，也能完全现在的精准度，这个也是一个会与以往的深度学习，机器学习不太一样的地方，所以这个也是我们在商品识别领域比较独到的一点，也是我们要加强的一点。

第三，像刚才的标签这个体系，我说过了，我做一套标签可能京东觉得是满意的，但是唯品会觉得不满意，这是因为我的标签体系跟用户的体系是不一样的，这种情况太多了，不止是服饰标签，很多的时候我做的东西，用户说第二天我要增加几个类别，你要给我重新训练吗？可以。多长时间？我标数据带训练可能需要一周的时间，这个太慢了。

怎么办呢？我们现在的一个思路是跟传统的机器学习不一样，我提供的不再是一个简单的模型了，我希望把我的后台工具，机器学习的训练工具，我的机器学习数据采集和标注工具，全部平台化，提升它，让它能够适应我的客户的环境。

实际上我把整套工具和解决方案，打包成一个解决方案，给我的客户，有的时候我不再说，因为我自己的人力问题或者资源问题首先了，我自己来制造模型吞吐量的能力，我要把制造模型这个能力给我们的客户，让他也有能力，快速的用它自己的数据，来完成它自己的模型搭建，这样我将来是一个平台，我可以让他使用我的平台去完成他自己的任务，这样会快很多。

这个是从技术角度来说的，我认为要加强的三点，可以形成一定的壁垒，谁要是能把这三点能解决的很好，它一定能成为一个，至少在这个领域里技术很强，能很落地能解决问题的一个公司。

应用能力

然后对于应用能力，其实刚才我也多少涉及到了，最重要还是收集行业数据的能力。

你到底有没有办法收集行业数据，用户肯定是没有数据的，你怎么去跟用户合作去收集数据，你有没有思路。其次的话，数据收集上来以后，比如说都是沙发，这种沙发和另外一种沙发到底有什么区别，这个是需要有行业知识的。

我客户在买沙发的时候，它更关注哪些沙发的不同点，来帮助他进行选择，这也是需要行业知识的。所以，这就是对行业数据的正确分析和解读能力。

你会发现，我做一个技术的公司，如果我只提供 API 或者我只提供 SDK，其实用户是不会买单的，他需要的东西和这个技术最终的交付方式，SDK 也好，模型也好，其实中间还有一公里，这个时候你需要去理解行业客户他的系统，谁的落地能力强，谁和这个行业它自身系统的整合能力强，谁就越能把这个问题解决得更好。

所以，这一点医疗可能问题更严重一点，你就发现医疗体系里面，各种各样的系统我都有，但是你怎么把你现有新的东西能整合进去，是一个很难的事情了。

所以，这个是从三个角度，政策、行业标准、技术壁垒和产品壁垒三方面来讲的这个事情。下一个题目就是说，我们为什么会觉得商品识别这个技术至关重要。

为什么商品识别技术至关重要？

商品的全流通领域，从设计、生产、交易、使用、回收，我们要解决的问题太多，而且现在面临的问题也太多。如果我能用我的图像识别技术解决其中的这么一些点，那我对整个人类社会的效能的提升会极大，会有很高的提升。

这个就是我们认为我们能在商品流通的环节能做得一些事情，这里我不细说，但是有一点我想跟大家讲，也是我们之前的一些经验。你发展到现在有五个点，哪个点可以做，哪个点里有商业价值，这是一个问题。

我是一个创业公司，我可以五个点都做，我也可以像这些项目一样，比如说回收站的用户来找我了，我就帮他做。但是，我们做一个初创公司我们要考虑一个问题就是：我们该做哪个行业，做哪一点，我的收益是最高的？

我们其实之前也走了很多的弯路，包括现在有一些历史遗留问题，我也不得不在这条路上继续走下去，但是我们现在在转变一个思维方式。估计在座有的朋友可能也了解这一点，越是接近 C 端用户的这种产品、诉求，你会发现越零散，越难以通过规模化的方式去覆盖。

所以，我们在选择的时候，我们现在一个标准是，尽量往生产环节的上游去走。比如说刚才我记得有一位朋友是讲，生产环节的一些事情。其实很遗憾，我们现在这一块做的还是太少，但是我们后面希望也能去多多接触这方面的一些内容，在生产环节里面去做一些事情，可能我们认为 margin 会大一点，会比在电商行业或者在零售行业做很多的事情 margin 会大一点，这个是我们目前来说的一些感受。

除了刚才我们说的，它会跟生产商品流通的全环节有关，还有一个，是对于商品流通的监管环节，这个平常大家可能关注的比较少一点，但是如果你是做这个买卖的话，你会发现各个地方砍得很严，你总是会被这个砍、那个砍。

比如说质检，质监你通过某种认证，包括刚才我说的 UPC 的那个码，你要去提交你的申请，才能申请下来那个码，包括我国的知识产权保护，包括我的收税的情况，包括我安检的情况……我们商品识别的技术都会在其中有一些辅助型的作用，包括其实现在有一些内容我们也正在跟一些客户去做。

商品识别如何重塑新零售？

最后一个题目就是说，我们的商品识别是如何重塑我们的零售？我也不说新零售，新零售这个词真的很新，它到底是什么，我也不是专家很难解释清楚。对于新零售，其实只有人、货、场三者还不够，其实更重要的是这个数据在人、货、场三者之间的流通，流通起来之后可能才叫我们的新零售。因为，新零售包括我们视频直播这个行业，其实现在都提一点，我需要千人千面。我觉得新零售这个概念，最终的一个终极的目标可能也是这样的改革概念，我会针对不同的客户会有不同的东西，不同的体验。

我觉得这个到那个时候，可能才能算一个真的新零售，不是像现在的这种零售，我进去以后和旁边这个人进去以后这个店里面的东西是一样的，我们要自己去做选择。然后一个企业他可能只能通过不断扩大他卖的商品数量来实行覆盖更多的客户，可能只能通过这种方案来完成。
毫无疑问，新零售不管意味着什么，最终我们要做两件事儿，一个是给消费者能省钱，同时有更好的消费体验，对售卖者来说，肯定是要给他们赚钱，同时提高他们的整个管理的性能和流通的性能。然后在新零售或者说所谓线下这个行业的这个点，都在起步。

我觉得很值得一提的是，不止是对这个产业本身，其实对整个人类来说，包括技术，最大的好处是我们会获得很多原本无法得到的数据，或者没有思考过的数据。其实摄像头的出现是一个很厉害的一件事情，它帮助我们收集了很，以前是我们没有打算收集或者是收集不到的东西。

现在随着摄像头的普及越来越多，我们把我们这个方面的数据极大的收集起来了，所以你会发现整个科技的发展其实是一个数据收集能力和数据储存能力的一个发展。从数据的角度来看，如果我们迈入新零售的领域来说，无论是便利店，无论说是我们的货柜，还有我们的终端零售机，你会发现不可避免的，一定要加摄像头。这就意味着又开辟一个新的线下数据收集的场所。

包括将来有一些体验店，我可能会有一个智能货镜，所有的镜子可能都会是摄像头的一个概念。所有的这些东西，都将进一步来把我们人类所能搜集的数据，扩充到一个新的领域来。所以，我觉得这个商品在重塑新零售，但是新零售其实反过来其实也在促进我们的数据搜集和管理体系。

最终我们还是落点于这个数据，这个数据里面到底有什么，我能挖掘到什么？这个东西才是我认为新零售最终要解决和解答的一个问题。
这里有一些有 Demo。比如红酒这个东西就属于一个很特别的商品，因为酒的外形都是一样的，不能通过用机器来识别酒瓶的外形来判断它是什么酒，所以酒的技术其实我们谈的更多是酒标的识别。我是怎么在图片中找到酒标，然后对它进行分析、索引、搜索。

所以，国内现在几家比较大的红酒的厂商都是我们的客户。而且红酒这个产品典型的是一个多种技术综合的一个产品，一开始我给大家讲过了，我们有搜索、检测、识别，红酒里面包含了检测（检测酒标）、搜索，我找到相同的款式，其实我还包含了 OCR，我通过 OCR 识别，因为这个酒 2005 年和 2003 年其实是不一样的酒，哪怕你的牌子是一样的，也是不一样的酒。

所以，我们要去识别里面的年份，来去做更精细的识别，所以它是一个综合的一个东西。所以，看上去好像每一个东西都不是很大，其实背后还是积累了很多的技术。

这是另外一个电商客户，他是帮助客户去做比价和去重的，用的也是我们这个技术，所有的这些相似的图，都是通过我们图像识别技术来完成的。你会发现其实市面上有很多的比价的产品，但是他们比价更多的是图像，比如说豆瓣读书会比价这个图书在各个电商网站上的价格。但是，一到小商品，一到衣服的时候，你发现你没法比价了，因为它跟那些东西不一样，它没有型号的概念。一个是衣服另外一个就是批发市场的小商品，虽然你看批发市场的小商品，都是 5 块钱、6 块钱都很便宜有什么可比的，如果是批发市场，你买了一千个、一万个的时候，这个价格的成本会有很大的差距。

所以，我们给很多家的这种 B2B 的电商，包括服装电商会提供这种比价的这种系统。

下一个商品落地，真的是到了我们现在所谓的新零售，或者新的销售体验的一种概念了，访客购物和商品挑选行为的追踪，这一块坦率的说，我现在还没有发现特别真的需求，有很多的客户找我们，想做什么呢？就是想做试衣镜，然后他给试衣镜里面可能会放一个摄像头，然后去抓拍用户都适用哪些衣服，通过这些衣服来去判断，哪些衣服的销量会更好，或者大家更感兴趣。

但是，有几个问题，我们在研究的过程中，没有发现解决的方案。你想所有的试衣镜大多数都在试衣间里面，你能装摄像头吗？不能装，这个是有隐私问题的。所以，后来客户就来跟我们的说，那咱们做鞋吧。鞋倒是可以，但是问题一下就把这个事情就变得很小很小了。

然后其次是什么呢？大部分客户的诉求，我就想通过大家试什么衣服来判断，我哪个衣服的销量可能会好，但是其实我是觉得，哪个衣服销量好和不好的话，你通过这个礼拜的数据和下个礼拜的数据，你能判断出来，有没有必要非得去用这个人试哪件衣服试的多和试验的少来判断。

当然，也有一种可能，有一些衣服可能试的很多，但是卖的很少，有可能会有这样的信号，这个有可能能解决的。这个信号意味着什么我不知道，但是有可能会有这样的异常信号，也许能帮助客户去做一些分析。所以，在这一块其实有很多的客户来找我们谈这个事情。

但是，目前来说没有特别好的，包括现在市面上有很多做 VIP 识别的，我这个客户到店里面来以后，我的店员肯定不知道他是 VIP，除非买东西以后，我说您有没有卡，卡能打折，他告诉是 VIP，但是这个时候客户已经到了最后一个环节了，马上就要离开了。

哪怕之前有什么不爽，服务没到位的情况，都已经过去了，你来不及补了。所以，他们想做一个 VIP 的人脸识别系统，用户一进来以后我马上能够识别出来这是一个 VIP，马上不同的感受就上来了。但是，目前来说，人脸识别是这样的，首先从技术来说，你不能说我这个 VIP 是单店 VIP，肯定是连锁店才有意义。

但是，连锁店你这个人脸一旦到几万这个级别，现在还没有好的精准匹配，你要说搜索，我可能给你搜出来 20 个人很像这个人，这个是可以，但是这个不能解决你 VIP 的问题。

你要的是精准匹配，什么叫精准匹配？是不是这个人。一定要给我一个准确答案，但是现在这个可以坦率跟大家说，人脸这一块，如果在普通摄像头的条件下，到了几万这个级别的话，很难说能达到这么一个精准度。所以，你会发现，警察他们不会说你一个囚犯的照片，他马上告诉你这个人是谁，其实他也是给出几千个个，为了防止有落网，他和警察会二次筛查。

所以，这就是海量出片的人脸搜索和人脸精准匹配的一个差距。

然后再就是人、货、场价值挖掘，这个商品的定向推荐，本质上就是这个商品推荐。但是，我是觉得是这样，这个事儿只靠商品识别是解决不了的，它一定你还要具备很强的人脸识别能力。因为，你推荐一定是既有商品又有人，而且还有地点和时间。

你不能说，我夏天的时候推你冬天的东西，或者说这个人前两天买了一个东西，今天他再来了，我再推荐他这个东西，这个是一个很大的题目。现在的话可能没有一个很好的方案把这个方方面面到底是什么样子能说清楚，我们只能说是在很多很具体的事情上一个个去解决。
而且这个一定不是一个公司两个公司能做的，这个事情一定多个公司，最终还有集成公司大家一起合力去做这个事儿，才会把这个事儿做成的。

所以，这一块因为我们确实没有一个很好的去给大家讲解，无论是成功的还是失败的。所以，这一块我也只能先暂时跳过，关于这个商品，尤其是线下的商品我怎么去做定向推荐。但是，有一个很好玩儿的事情，大家可能都听说过友宝，是一个自助售货机，主要是饮料类的。你如果看他们的财报的话，他们 2016 年的时候，他们通过靠饮料的售卖的营收占他们总营收的 94% 以上。

但是，到今年的时候，他们商品售卖的总营收只是到了 70%，剩下的 20% 是什么呢？是他们这一块屏的广告。所以，这也是我刚刚说的一点，有的时候新零售这个事儿是听坑爹的，你光卖这个商品，因为这个范围太小了，其实像友宝这个，全中国铺了 7 万台柜子的，他也很难去营利，他最后要运用广告带营。

当然，这个也是一个方面，你这个友宝上面挂一个屏幕去做更多的推荐和广告，目前来看至少它在这一块的营利会逐渐的增多，包括线下的话，我相信你无论是做无人货柜、无人便利店还有友宝这种售卖机的也好，最终怎么去把广告植入？怎么去推荐客户不同的广告，可能是一个真正可以赚到钱的点。

这个就是无人结帐，其实 Amazon go 已经实现得很好了，虽然我没有去，但是我们的 CTO（美国人）在回国时候他去试了试，他觉得效果很好。但是，现在最大的问题是成本问题，Amazon go 一个单店需要几百万的美金，你会发现整个屋子里各个地方都是摄像头，这个货架上有很多很多的摄像头，除了摄像头进场通信、RFID 这些东西也都有。

所以，这个东西现在至少只有 Amazon 这种级别做一个体验店可以，现在真正想铺开了去做很难很难。主要还是受限于技术的瓶颈，包括我知道，我们有一些合作伙伴之前都想做无人便利店也来找过我们，我们也聊过，后面我们一个判断是，这个事情上还不是特别的成熟，他们也不太信，他们也找了别家去做。之前找过我们的两家他们现在没有了。

他们最后的一个反思，就是觉得自己步子迈得太大了，以为这个事儿我技术方面做到了就能解决，其实这是一个系统工程，这个技术单方面是解决不了的，一个是多方面的技术，以及还有一些其它的 Trick，包括运营，一起解决，但是太复杂了。

他们想做无人便利店就是因为觉得这个成本相对于真的便利店或者大商超成本会低一点。但是，实际上进来以后，发现无论是从技术角度、管理角度、系统应用角度来说，其实成本一点都不小。而且，货损率也很高，所以最后这个事儿就没做起来。

所以，目前我的一个判断是，无人便利店可能步子迈的比较大，就是说无人货柜或者说友宝这样的机械要是想降成本是完全有可能做到的。现在一台友宝的机器，大概是 2.7 万（简单一点的），稍微贵一点的是 3 万，他们现在也在出那种便利架，就是把熟食放进去。

那个柜子稍微格多一点大概是 7 万块钱，其实成本还是蛮高的，因为它是一个全封闭的系统，它是靠机器跟这些设备来控制你选择了什么，然后出货这些东西。所以，这个成本很快高。

但是，如果用了图像识别的话，我相信至少 2.7 万的柜子能降到 1 万以下是完全有可能的。

便利店的最大问题是什么呢？

店面和人员的运营费用太高了，现在人的工资不断在涨，然后店面的费用也在涨。所以，为什么现在很多人去搞柜子，各种各样的柜子或者是什么东西，就是因为这个柜子占地很小，尤其是当你放你办公室了以后，这个地方实际上是不收钱的，是白给你的。

无人货柜的好处是什么呢？你只要补货，你补货一个真可以负责一个区域，所以确实成本会更低一点，但是他的问题是什么呢？你会发现现在所有的无人货柜、便利店都卖的是饮料、泡面这种成型的商品，他的毛利太低了，就几毛钱。

你像友宝他一台柜子一个月平均来说，可能 800 块钱的毛利。然后流水就要达到 5000 块钱，才有这个价格。其实毛利太低了，这个意味着什么呢？低的可能有一些成本可能也比较 Hold 住，然后货损的成本你肯定 Hold 不住。你货损如果像无人货柜那么高，30% 的货损率你肯定是赔。所以，他的痛点是什么呢？

第一，怎么降低货损。

第二，能不能卖熟食，就是高附加性的这种商品。

这两个问题如果他能解决的话，其实我们觉得无人货柜这种新奇可能还是可以跟便利店可以 PK 的，毕竟的话，可以看到在日本，这是全民都比较认可的东西。全日本 40 多万的这种机器到处都是，在中国还达不到这个量。

我估计现在一年 10 万都是撑死了，可能还得死好多。其实我觉得还是有很大的发展的。但是，要解决两个事情：

第一，你怎么去卖那些毛利高的东西？

第二，你怎么降低货损？

这个我觉得人工智能、图像识别都是有希望能解决的。

然后就是货架管理，这个东西也是有人找我们做，后面我们没有做。因为市面上有几家做得还确实不错的，它相当于是补完货以后我拍一个照片……尤其是很多的加盟店补货完了以后都是第三方去补货，第三方补货可能不负责任，可能有一些东西没补，或者是补的地方不对，可能是需要拍一个照，然后传到总部上，总部一确认这个货没补对，对这个员工可能会有一些惩罚机制，就大概是这么一个概念。

这个其实图像视觉应该能解决的还不错。但是问题是，基本解决的是第一层，可想而知后面的几层是解决不了的。

最后一个，这个东西大家可能接触少一点，完全是一个设计师群体的东西了，但是我们在这里因为有一些好的合作伙伴，确实也做了一些事情。比如说我们当时跟纺织信息中心，一个中国比较大的这样一个时尚趋势分析的一个机构，去分析每年到底现在有什么东西在流行。

这个产品已经落地了。现在纺织信息中心或者很多其它的时尚机构，包括制衣的厂商像 Zara 都有这样的团队，每年都有几十个人满世界各地飞，去各种秀场采风。采风回来以后拍很多的照片，然后再有一批人去分析，分析什么呢？分析颜色、分析新款趋势，很多很多人在做这个事情，这也是一个很大的市场。

以前都是人去做，现在我们想想机器完全可以做到，为什么不让机器做呢？

这个是一个已经落地的产品，也是给刚才我说的，这种形式的客户去用，然后我们归去各大秀场、街拍，不但是高大上的也有接地气的，所有地方去抓图，抓图以后所有的色彩，包括裙装的比例，然后这个图案，什么格纹、人纹、波点，各种各样的图案、设计元素，什么中短流苏袖口，这些东西全都是机器分析出来的，因为他是一款大数据的 BI 产品，所以好多事儿我不在乎于一张图我分析的对不对，我主要看的是大部分图是不是都分析对了？因为我看的是趋势。

所以，这个现在已经是一款比较落地的一个产品了。

最后再谈一下未来，未来的话，还是我刚才说的这个事情，没有我们想象的那么乐观。比如说去年大家火无人货柜，就觉得无人货柜已经就起来了，然后新零售现在持续在火，但是我是觉得技术还是在培育，未来是这个样子，但是现在还有很多要克服的坎儿。

然后除了消费领域是这样的一个情况以外，我们也觉得，就是像我刚才说的，你往上游走，去解决一些更本质的问题，尤其是采集这个问题，以及一些质量问题，可能对这个行业链，可能有更大的意义，包括我们自己的营收可能也会更好。再有就是很多的标准包括监管，跟政府去结合，毫无疑问，就是你会发现推很多的标准只有政府能推下去，你是自己没法去做这个事情的。

包括我们跟纺织信息中心也是一样，为什么跟他们合作呢？因为他们自己会有持牌体系，就像刚才我说的，NCS，但是其实中国有一个 CNCS，就是所有纺织厂商，包括制衣厂商他都要遵从 CNCS，这就是纺织信息中心做的一个标准，大概就是这样的一个想法。

这是我今天要跟大家分享的，感谢各位！

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/52249.html