李敏花花草草App走进天然花伴侣

  新浪财经讯主题为“和而不同,思想无界”的 CC讲坛第36期(人民网慕课“CC学院”第2期)现场演讲于2020年4月25日在北京以网络直播形式举行。来自中国科学院植物研究所高级工程师、“花伴侣”创始人李敏出席并以《花花草草App,走进自然花伴侣》为题发表演讲。

  以下为演讲全文:

  我是李敏,来自于北京香山脚下的中国科学院植物研究所。在植物园里,前些年我经常能听到这样的事情,一个孩子指着树上的花问家长这是什么花?家长不假思索随口就说这是百合,我在旁边听着我心里发颤,百合长在地上,树上的花是玉兰,小孩子的记性非常好,一旦前面进入了错误的信息,后面要改正他,就太难了。

  我们国家地跨热带,到寒温带,山川纵横,地域辽阔,物种异常丰富。中国的植物种类繁多,是世界上物种最丰富的国家之一。

  我身后的楼是国家植物标准馆里面保存了来自于全国和世界各地的接近300万份的植物标本。这些植物标本是研究植物分类、分布,幕后的这些信息的基本材料。

  每一份标本上面有植物的花果、10条或者是11条,上面准确的记录了植物产业的时间和地点,这样一些信息汇集起来,就是我们植物资源的一个最基本的信息库。为了弄清楚我们国家的植物资源的现状,4代科学家,历经80年、45年的编纂、80年的积累,编撰了一套中国的植物百科全书《中国植物志》。这套书记载了中国的31143种植物,包括它的形态特征、产地分布、公共用途、经济价值,这样一些信息,为开发利用植物提供了必须的基础,也为其他学科的发展提供了材料, 还对常见的物种提供了一些线条图。那么这样一些描述,它主要是专业的知识的描述,对于专业的工作者是非常有帮助的。

  2011年的时候,我们把这套书80乘180卷、126本的巨著大概有100多公斤的书,我们把它通过数字化进行了全文的数据库网站,这个网站到现在为止的访问量都非常大,每年的服务的人数超过3000万人次。后面随着智能手机的普及,我们又和科学出版社联合发布了自在掌握手机植物志,这样我们只需要拿出我们的手机就可以随时查阅这5000万字的《中国植物志》的描述,这个是我们《中国植物志》手机版的。大家能看到它的描述,相对专业配的线条图,使用和阅读起来可能是针对专业工作者,普通公众要想使用还是会有些吃力。

  大家看前面讲的代表种银杏,大家看到照片的时候还是感觉到比较亲切,因为在很多人行道,树林里面都能见得到。我们公众需要更加直观、更加便捷的这样一些植物认知的工具。

  从上个世纪80年代开始,我们的老一辈的科学家就开始去全国各地收集植物。画面徐克学教授来自于中国科学院质量研究所,是我们的老同事,他走遍了中国物种丰富的天南海北,各个地南到海南岛、西到新疆、西藏这些地方,拍摄了数以10万的照片,这些照片对我们研究所提供了非常好的基础。

  另外一位是马炜梁教授,他是华东师范大学的教授,是植物分类学家,同时也在教受植物学,要了解植物学的植物的结构就很重要,我们要认识这个物种,我前面提到的玉兰花,白色的是它的花瓣,里面摆成圆圈的这部分是他的雄蕊,里面有花粉,中间绿色的带毛刺的是他的雌蕊。整个的花通过解剖以后,我们也可以更加好的去认识到这个科属的特征,有利于我们去做进一步的分类学研究。

  有了这两位先生的经历以后,他们把他们的胶片都贡献给了我们植物标本馆。我们以此为基础也进了一个网站平台,希望把专家和爱好者手里的照片都进行有效的汇集起来,建立植物图样库,每一张照片我们都详细的准确的记录了它的拍摄的时间、地点、经纬度等等这样一些信息,实际上就参照我们的标本的信息来,用它作为一个标本数据的非常好的补充。

  现在为止,我们这个图库有来自全国的6.5万名摄影师的共同参与,从最初的08年建库的7000个物种到现在3.4万个物种,接近600万幅图片,那么这些图片的汇集是我们做下一步的彩色版《中国植物志》一个非常好的基础。

  当你有了图片以后,我们想能不能够利用这些图片来进行更好的不同的识别。

  首先我们就想到叶片,因为叶片它是典型的,非常容易获取它的形状,容易建功,在早期的植物世界里面,机器世界里面用的最多的就是叶片。叶片,它在特定的一些类群或者在有限的范围之内,能比较好的进行识别。但是因为叶片的变化非常大,受环境的影响也很大,所以说它实际上在大范围的使用的时候,很难做出一个比较好的模型。所以说叶片识别没有正真获得很好的利用,大多数都是属于 demo的状态。因为我们物种的鉴定特征,主要科属的分类依据在花果上面。随着我们图库的建立,我们收集的图片慢慢的变多,我们就想能不能把图库里面的带花朵的照片收集起来。

  我们整理到图库里面有11万幅花的照片,然后分出了1100多个种,当时跟百度的深度学习实验室合作,经过人工智能的训练,初步的实现了这1100种的花的识别。这基本上也是第1个可以用计算机来识别花卉的这样一个应用,当时我们提供了一个在线的网页来提供服务。到2016年,尤其是阿尔法狗在战胜围棋以后,那么人工智能又获得了很大进步,尤其是这些算法都开源以后,大家都非常容易找到算法,然后我们又把图库里面更多的图片拿进来,我们选取了6000个物种,大概是120万幅的图片,让计算机来进行学习,这样一个时间段我不再局限于只要花的照片,不管你是哪个部位的照片,只要你鉴定了,我们都拿来进行去学习。这样我们就得到了一个非常好的6000种的物种的识别,那么基本上涵盖了我们身边常见的野生和栽培的物种。 我们发布了一个产品叫做花伴侣,到为到此为止的话,我们只要任何一个人拿着手机对着我们关心的植物拍摄,就能得到一个非常好的识别的结果。那么只要你对着花的特征,基本上准确率都是非常高的。不但能够拍摄照片,还能够识别完了给你名称以后你可以去访问物种的百科信息,你也可以贡献你的图片给我们图库。在《中国植物志》手机版的基础之上,我们的物种的获取鉴定从未如此便捷,这个应用一上线以后,就得到非常好的应用的推广,每到节假日我们的用户就爆发式的增长,基本上大家见到用户后期都会去分享这样一个应用。

  也有人拿着这个手机对着我们人拍一拍,那么识别出来是榴莲,南瓜、茄子觉得很好。为何会出现这样的一个情况?其实现在我们的人工智能不是万能的,我们现在还处在弱人工智能的时代,人工智能还不清楚自己不知道,它永远都只清楚自己知道那些东西。比如我们拍一个盘子,我们拍一个塑料花,它会根据这张图片的纹理,颜色等去到训练集里面去找最合适的模型来进行比对,推出一个结果。有时候这种耦合还会得到较高的支持度,那么我们显示的可信度也会比较高,那么怎么样拍照片才能轻松的获得比较好的识别效果呢?

  首先你要拍正常尺度的照片,我们图库里面因为小苗这些,可是这些图片比较少,所以我们在识别的支持率也往往比较低,这是我拍在花盆里面的一个小的植物。识别出来第1个结果肯定不对,因为我知道它是什么,然后往下拖,我发现更多结果里面第3个结果叫做秸秆,真是我识别的这个物种的特征。实际上这里面告诉我们,我们为何需要给多个结果?可以相似度高的不一定正确,但是相似度低的也不一定是错误的,那么它都会给我们参考。

  我们为何需要给你一个参考图片,给你一个百度链接,就希望人工智能的基础上再加上自己人的判断,这样你就能获得比较好的识别效果。另外一个就是我们在识别物种的时候,最好还是不要拍太大的景观,让我们在一张小照片里能看到细节,也不要拍的太客气,最好在这个画面里面同时包括花叶等等这样一些稍微多一点的信息,因为只有这样的信息它才更加丰富,识别的准确率还更高。其实现在人工智能的这个效率已经让我惊叹了,这三张照片都得到准确的结果。

  我们一定会让科学家看到,现在我们也实时的能清楚看到大家的识别的记录的情况,因为我们每天的识别量非常大,所以说现在还不能做到每一张图片去做,看它的识别准不准,不准又会怎么样,但是随着我们数据的积累,包括人工智能的进一步的迭代,我们就会去筛选出哪些是科学家着重关注的类群,他对某一个科属感兴趣,我们就给他推送这个科属的图片,让真正的内行的专家去做深入的研究。

  大家都在用花伴侣的时候,我们就很容易获取到全世界有什么样的一些物种。

  那么具体到北京来的话,这是我们北京春天的一个识别的实时的一个热力图,这是前两天,大家看到最受欢迎的观花的地点还是植物园,大学周边还有奥森在北京来讲,这是北京最主要的观花点,也是我们节假日人群最密集的地方,我们也可以获取到一个小的范围之内的物种识别的实时的一个动态图片,这是今天刚获取的北京植物园最近一个月的识别的记录,那么能够实时的显示出来,现在有谁在识别到什么物种,识别准确率怎么样? 哪些物种最受关注。这些物种这一个月的识别和上一个月识别有什么不一样,这些数据就可当作我们未来的大数据的分析。然后这是我们做的两年的春天识别高峰的比较,那么我们就能看出来这个气候的变化或者说气温的变化,也能获得哪些物种是这个地区,这个时间,最受欢迎最受关注的物种?比如北京的春天,榆叶梅、碧桃满街都是,满植物园都是,它识别的关注度更高,到了夏天的时候就是萱草,月季等这样一些北京的市花,它们的关注非常高。

  我们能够正常的看到,除了北京、广州、成都、杭州、上海,他们这些地方人们识别植物的结果,能够分析出来那里的春天,老百姓出去观花的频度的情况。也能够看得到不同的地方,他们最丰富的物种或者最受关注的物种是哪些,南方和北方会有一些不一样的地方。

  大家都在用花伴侣的时候,发现新物种是非常可能的。中国的植物研究,全世界的植物学研究,实际上已经走在生物学研究,在物种层面是比较前列的。但即便这样,每年我们国家要新发表100多个新东西,新的物种会源源不断的出现。如果是走到动物里面的话,要发现一个昆虫,发现个新种不算事儿,可能要新属或者新科,连大动物这些年都还陆续的还在发生一些新的物种。再往下这一类的新物种就会更多。 其实随着我们技术的发展,现在有花伴侣,未来肯定会有虫伴侣与有蘑菇伴侣,甚至说真菌伴侣,这样一些人工智能的工具拿来会大大的提高,我们公众去发现新的物种的可能性。不但要发现新物种,还要知道它新分布,新的一些功能或者新的一些习性,等等这样一些东西都离不开大家的共同参与。

  来自于河北木兰围场的郭万军老师。他是一个老人,林业工人,他对当地的物种非常熟悉,拍摄了数以万计的植物图片,但是局限于《植物志》书的观察比较繁琐,有些性状特征没有的就不便于检索。当他从年轻人那里得到花伴侣这个工具以后,他如获至宝,把过去积累的数万张照片都重新逐一的识别了,进行了重新的整理了一个他手里面的关于木兰围场更新的一个物种资料,在他的总结里面,就比已出版的《河北木兰围场植物志》的数据更新了50个新的分布的物种,还把三个物种的分布区往北扩大了一个纬度。就是说只要经过一些简单的训练或者有些工作基础,利用了花伴侣这样的工具,就能够很好地提升我们工作的效率和效果,让我们更方便的走进到我们的植物科学世界里面去。

  这个是我们花伴侣识别的一个大数据的情况,大家从这个图上面可以看得出来,北、上、广,人多的地方就是我们识别的多的地方。那么我们物种丰富的地方在哪?在西南地区,在青藏高原,特有种很多,物种很丰富,这些地方人去的少,我们识别的量也很少,其实我们对这些地方物种的研究还远远不够,我们要能够更好的去研究这些物种,还需要大家提供更多的素材,让我们有更多的信息可以汇聚、可以分析。

  我相信在未来大家只需要举起手机,我们对准我要观察对象的时候,我们就能够很好地获取这些不同的信息。它是什么物种?这些物种之间有什么样的关系?我们对单个物种的了解,只是第1步。这些物种之间的组合和相互关系又是一个更深的学问,现在这一块的数据量差别非常大,非常紧缺这样的数据。 我们植物学研究或者生物学研究,非常期待大家共同参与,提交数据,共同来使用花伴侣的,共同来提交识别记录,让我们的物种的研究走的更深入、更准确。让我们共同走进大自然,走进科学研究,谢谢大家。

  新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不代表赞同其观点或证实其描述。

  责任编辑:梁斌 SF055