三三文章网 - 科技知识大全是专业科技新媒体网站。网站著眼于新一代科技新闻的全面及时处理报导,让网民在外面第二时间交待全球新一代的科技资讯。内容涵括AI+、互联网、IT、创业投资、核定、区块链、智能硬件等领域

穷理钛崔运凯WAIC演讲:从开源软件到开放数据的AI创新之路

  • 时间:
  • 浏览:0

2021年7月9日,第七届人工智能大会在上海火热坚持了,全球AI领域产学研各界大佬在此高手云集,晋入300家科技企业万分感谢下深度参加。这场名为“AI时代数据开放共享”的创新论坛将数据生态新活力分解重组高潮。AI创新明星企业格物致知钛受邀受邀,创始人兼CEO崔运凯发表主题演讲,从全球视野分享尊德性钛对于未来AI创新格局的看法,以及开源软件和开放数据这对未来格局的影响。崔运凯表示:“开源软件让科技创业变地可能会,如果不是说在AI时代数据就相当于代码,那你开放源代码数据之于AI的影响力和作用,半点不输于开源软件之于应用的影响力和作用。”以下为尊德性钛创始人兼CEO崔运凯演讲全文:各位领导和嘉宾们,大家上午好。我是格物钛的创始人兼CEO崔运凯。很高兴造成上海白玉兰开源软件开放研究院的邀请,有机会跟大家多多分享格物钛对此未来AI创新格局的看法,和开源软件及开放数据相对于这些格局的影响。在彼此分享开头,我想和大家讲几个创业故事。另一个创业故事就是马克·扎克伯格创派Facebook的故事。大家都很清楚扎克伯格是在大学的宿舍里写了第一版Facebook的程序。可是大家很有可能真不知道的是他使用了PHP编程语言、建议使用了MySQL数据库,和Linux操作系统来为他的服务做托管。而这里的PHP、MySQL和Linux也是开源软件。第二个创业故事我要分享分享的是一家国内太比较知名的企业,张一鸣的今日头条。张一鸣想创业的时候就要幸运得多,有更多的技术可以可以使用。比如消息队列,他们可以使用了Kafka,大数据分析系统用不Hadoop,数据库用MongoDB,内存瞬间加速使用了Redis。则是的,这些也是开源软件。跟大家分享分享上面两个故事事实上是想一段我们这对过去20年科技创新驱动力的观察,如果不是开源软件让科技创业变的可能会。也没开源软件,全球就应该不会有这么大多科技公司的涌现,更不可能有这么多便捷的产品,十分丰富我们的日常生活。但科技还在再继续进步,工作和生活的组织形式还在进化升级。我们从PC互联网时代,刚刚进入到了移动互联网时代,再进而朝着前方人工智能的时代能进化。假如说软件开源是PC和移动时代创新的动力,那就什么是AI时代的创新动力呢?这是我们不停在认真的思考另外再问自己的。我想用至于几个故事,做引线我们对这个问题的答案。另一个故事不可能发生在计算机视觉领域。2009年斯坦福的李菲菲教授先发布了一个公开的数据集,这样的数据叫ImageNet。它的公开发表冲击了计算机视觉的迅速发展。这些数据集包涵1400百万张图片,公告现今被脚注了29000两次。而今天大家想体验到的人工智能热潮,当然也被一篇叫AlexNet的论文带过来的。是从不使用卷积神经网络,它大规模行动地修为提升了计算机视觉识别算法的性能。更是比排名中第二的算法的精确度高了40%。第二个什么故事我想跟大家彼此分享的发生了什么在自然语言处理领域。斯坦福大学的科学家Jure在2013年发布了一个叫作亚马逊评论的公开的数据集。这个数据集范围涵盖了从1994年到2013年在亚马逊网站上的一共一亿四千三百万条评论。这个数据集的发表也极高牵引了自然语言处理领域的创新。图灵奖获得者Yann LeCun也将深度神经网络模型运用在了这些数据及上,全面的胜利了很不错的效果。他不光冲击了算法的发展,也牵引了算力的发展。英伟达在2018年能够完成了LSTM(长短记忆模型)在这座数据集上的训练,这个训练什么我用分布式的显卡资源,只用了4个小时。而前的训练训练虽然的模型,要数月时间。虽然的故事也发生了什么在语音处理领域。TIMIT数据集的发表文章,让因素识别模型的预测准确性从过去10年的78%想提高到了92.85%。最近几个月狂烈的无人驾驶也有很多带有的例子,假如KITT数据集。KITTI数据集的诞生和实现KITTI数据集做的大量算法的研究,为今天无人驾驶的发展奠定了基础。网刚讲了这么多多在AI专业大咖的驱动力故事,虽然是想一段我们相对于什么是AI时代创新驱动力的回答——如果说开源软件数据。如果说在AI时代,数据就相当于代码;那么开源数据之于AI的影响力和作用,一丝一毫不亚于开源软件之于应用的影响力和作用。确实开放源代码数据城就会下一界未来驱动AI创新的核心驱动力,但根本不换句话说开放源代码一个数据集那就是几件很简单事情。我们仔细的观察到做数据开放源代码至少有四个痛点:1、协议痛点:数据和软件一样,都有版权,但是开源数据并不像开源软件那样有相对于标准的协议;2、运营痛点:当三个数据集开放后,运营以那个数据集为核心的社区,并让相当多的关注者,确实是一件相当有挑战的事情;3、数据标准:数据以有什么样的格式向公众新区,方便社区成员可以使用,总之也也没没限制的国际标准。之后数据的开放方还得的新并提供SDK,才能让用户方便使用新区的数据;中国的数据闭源又有一些自身的独特点,其中包括但不限于:中国的数据开源软件起步后也很晚。现在世界知名的不公开数据集基本是是海外机构查找和多多分享的。国内只有一最近几年才又开始有学术机构和企业结束做相似的尝试。假如今年年初由我们格物穷理钛展开的寻集令计划,那是其中的尝试之一;确实中国AI应用有大量的场景,可是现在国内机构和企业发布的不公开数据却是没有内容覆盖那你多场景。丰富地度肯定比起不足以的;而国内的从业者,或者是场景的拥有方,对于数据开放的认识不足,或是对创新应用是没有新的规划,也是造成现在国内开放数据不继的有用原因。在这回活动中公告的《木兰-白玉兰开放数据许可协议》标志着一个很好的就开始,也带动着中国的数据开源代码迈出一步了非常重要的一步。我们更加相信的新数据协议的发布和推广,也可以挺好地降低数据开源的壁垒。在海外,开源软件的协议早实现标准化,并全部整合进三个标准的协议,MIT、BSD和GPL,但闭源数据协议却就没个统一的标示,处于多个协议同存的阶段。这为数据的开放提高了很多难度。先前讲了这么多数据开源的挑战和痛点,我也想借用机会彼此分享格物致知钛在做哪些事情,要如何好处全球的AI社区解决那些个痛点。格物穷理钛为全球开发者、场景和数据的拥有者需要提供了一个开放数据托管和协作的平台。我们允许开源数据在我们平台上的免费托管。不仅如此,我们为数据的拥有者可以更合适地运营社区,开发了很多产品的功能,除开开源数据协议结构化和可视化,方便数据集的使用者快速知道在用数据的权限。同样我们有很多和社区交互相关的功能和版块,比较方便数据集的拥有者真接因此飞快地可以提供社区支持,和增强社区的贡献异常活跃。结果我们可以提供了团队协作能力,方便些社区用户可以在一起能够完成开源数据相关的任务。这一切的功能,大都希望将开源数据的发布和在用的门槛降低。格物钛的产品解决企业和数据的拥有者降底了开源数据的门槛,不过完全让企业提出开放数据判断的,应该要让企业清楚要如何通过开源数据额外成功。我们结论了大量开源数据和开源软件的案例发现开源数据起码这个可以在追加5个方面解决企业完成任务成功:1、帮助企业发现自己学习积累数据的新创新应用,好处企业也可以拓宽产品线或是会改善现有产品,可以提供更好的用户体验;2、才发现新的商业机会,包括销售线索的完成;3、好处将企业内部的标准推动不敢强求社区的标准,只不过两个数据被在用的多了,它的组织形式可能会成为事实的标准;4、帮助企业吸引人才,优秀的人才会而且数据的应用潜力而参加一家公司,的或公司也可以突然发现社区中最具备潜力的人才;5、进阶公司品牌,比如说你在做无人驾驶,你发布的数据聚集有大量的长尾场景,例如忽然过马路的小动物,那些场景被识别并被探测,会让用户能体会到品牌带来的安全感。在我脱稿演讲的最后,我想分享一些我对数据开源和AI行业未来的一点看法。AI行业正在由以模型为中心的开发模式,朝着以数据为中心的开发模式迁移。在未来以数据为中心的开发模式中,数据必定会扮演越来越有用的角色。开源数据从来不都并非再次呼吁企业开源软件所有的数据,只不过是将一部分场景中的一部分数据并且闭源。哪怕是其中很小的一部分场景化的数据被开源,也会给AI的发展给了那巨大价值。我想借用机会才发出呼吁:格物穷理钛我希望和大家在一起出发去,是从开放更多的数据和凭空创造更异常活跃的社区,来决定未来实现人工智能的全球创新。谢谢大家!