科技 economic
您现在的位置:首页 > 科技 > AI从“一专一能”迈向“多专多能”

新闻

皇派门窗品牌战略盛大发布:解密高端隔音门窗如何成为隔音风向标? 皇派门窗品牌战略盛大发布:解密高端隔音门窗如何...

4月16日,皇派门窗416品牌日如约而至。自2007年品牌创立,随后将“高端隔音门窗”作为品牌定位,皇派门窗...

  • 营销与经营深度一体,巨量引擎助力品牌撬动全渠道增长

    过去十年,中国企业在数字营销上的投入快速增长。根据eMarketer的数据,2023年国内数字广告的投入将达到1361亿美元,增长14.8%。数字营销已经成为品牌方最大的经营成本之一。面对如此巨大的投入,品牌方的管理层...

  • 国爱GOAI携电火系列新品发布,直击深圳高交会现场

    2023年11月15日,第25届中国国际高新技术成果交易会在深圳福田会展中心盛大举办。作为中国高新技术领域的盛会,高交会一直以来都是展示最新科技产品和技术的舞台。在本次展会1号馆,深圳国爱全电化智慧科技有限公...

  • 赤炎玻璃亮相2023深圳国际全触与显示展,CHUM新产...

    10月11日,第十四届国际全触与显示展在深圳国家会展中心(宝安新馆)盛大开幕。光电显示行业产业链3000+国内外知名品牌汇聚于此,展示新型显示及智慧触控产业的创新前沿技术及应用。作为电子显示保护材料领域科技...

科技

勇闯前人未至之境,Pimax Frontier 2022破界而来 勇闯前人未至之境,Pimax Frontier 2022破界而来

北京时间11月10日上午10点,小派科技将携又一款VR3.0力作在PimaxFrontier2022海外发布会正式亮相。去年...

  • G客 4力释放!耕升 GeForce RTX® 40系列GPU评测解...

    2022年9月20日,NVIDIAGTC 2022主题演讲在美国加利福尼亚州圣克拉拉举办。在本次主题演讲中,无数玩家和创作者们期待的GeForceRTX®40系列GPU和NVIDIA®DLSS 3正式发布,为玩家和创作者带来巨大的性能提升。 &n...

  • “破圈”的协作机器人|看越疆如何赋能新商业!

    协作机器人以革新的人机交互技术,打破了传统机器人应用场景的边界,由于安全易用,灵活智能等先天优势,协作机器人在越来越多的场景下释放出巨大潜能,从工业到商业应用快速延伸,势如破竹,触发了前所未有的机遇。 ...

  • 用高科技替代除草剂 保障粮产与食品“双安全”

    “新冠肺炎疫情迅速蔓延全球,一些国家和地区正在加强贸易管控。对于我国粮食安全同样带来严峻考验。”近日,在江苏扬州江都区宜陵镇北斗导航数字化精准化物理除草新技术现场会上,扬州大学机械工程学院张瑞宏教授...

AI从“一专一能”迈向“多专多能”

发布时间:2022/09/20 科技 浏览:135

近日,2022世界人工智能大会在上海举行,由武汉人工智能研究院、中国科学院自动化研究所和华为技术有限公司联合研发的“紫东太初”多模态大模型项目获得了此次大会的最高奖项。“此次大会的‘智联世界,元生无界’主题,恰好揭示了人类智能未来发展的两大方向,智联世界代表弱人工智能对物理世界的作用及改造,而元生无界则代表着利用人工智能技术构建元宇宙,实现虚实融合的新型世界。”中国计算机行业协会数据安全专业委员会委员、北京理工大学网络与安全研究所所长闫怀志说。

中国科学院自动化研究所研究员、武汉人工智能研究院院长王金桥表示,“紫东太初”是全球首个图、文、音三模态大模型,开创性地实现了图像、文本、语音三模态数据间的“统一表示”与“相互生成”,实现了“以图生音”和“以音生图”,理解和生成能力更接近人类,为打造多模态人工智能行业应用提供创新基础,向通用人工智能迈出了重要一步。

“紫东太初”具备部分类脑特性

在闫怀志看来,通用人工智能旨在制造出像人类一样思考、像人类一样拥有全面智能、能够从事多类型工作的机器,因此又被称为强人工智能。目前的人工智能充其量只是承袭了人类的认知结果,远未形成不同感官之间的、相互确定的认知能力。

传统的人工智能,比如大名鼎鼎的阿尔法围棋(AlphaGo),在一些领域内已经“孤独求败”。不过,北京德火科技有限责任公司技术总监李岩表示,现阶段许多行业内应用的人工智能技术仍处于比较初级的阶段,与科幻电影中设想的各类人工智能应用还相去甚远。

在王金桥看来,人工智能一路发展至今,虽然取得了许多突破与进步,但仍存在三大主要局限:首先,人工智能模型的功能单一,一个模型只能解决一个任务;其次,人工智能模型的训练依赖于大量的样本,如果缺乏足够的样本支撑,训练也就无从谈起。以训练人脸识别数据库Webface为例,需要2.6亿张图片才能训练出一个可用的模型;最后,人工智能模型的泛化能力差,不能应用于广泛的应用场景。

“我们一直以来都在追求如何解决当前人工智能‘一专一用’的问题,基于自监督学习的多模态预训练模型是当前的一个重要发展路径。”王金桥说。

自监督学习指的是从大规模的无监督数据中挖掘隐含的监督信息进行训练,从而得到对下游任务有价值的表征,相比于传统的深度学习,是更接近人类的学习方式。

“能否在同一个维度、同一个空间,面对不同的场景提供同一个多模态大模型,摆脱‘一专一能’,是实现人工智能通用化的基础。”王金桥说。“紫东太初”可以将图像、文本、语音等不同模态数据实现跨模态的统一表征和学习,突破了当前AI技术局限,具备部分类脑特性,从“一专一能”迈向“多专多能”。

闫怀志指出:“本质上,‘以图生音’和‘以音生图’仍然是一种基于数据的人工智能,但它更接近于人类的理解和思考方式,因此可以被视为从弱人工智能向通用人工智能迈进的重要基础性工作。”

实现三模态内容的统一与重现

曾经,“以图生音”和“以音生图”只是幻想,而如今的“紫东太初”却让这两者成为了现实。“以图生音”和“以音生图”究竟是如何实现的?实现图、文、音三模态转化的真正关键以及底层逻辑是什么?

据悉,“紫东太初”三模态间的相互转换和生成,其核心原理是视觉、文本、语音不同模态通过各自编码器映射到统一语义空间,然后通过多头自注意力机制学习模态之间的语义关联以及特征对齐,形成多模态统一知识表示;之后,再利用编码后的多模态特征,通过解码器分别生成文本、图像和语音。

王金桥表示:“通俗地说,‘紫东太初’就是将形式各不相同的三模态内容转化为一个统一的多模态知识表示,之后再次利用这种知识表示重新生成三模态内容,以此实现‘以图生音’和‘以音生图’。”

同时,王金桥还表示,“紫东太初”凭借四大突破,有效助力以多模态认知为核心的通用人工智能发展。

具体来说,一是首次提出多层次、多任务跨模态自监督学习框架,支持从词条级走向模态级、样本级的三级预训练自监督学习方式;二是首次完成弱关联多模态数据语义统一表示,减少数据收集与清洗代价;三是首次实现多模态理解与生成任务的统一建模,支持跨模态检索、多模态分类、语音识别、图像生成等理解与生成任务;四是首次实现无监督超越有监督方法,基于5%—10%的数据标注,实现100%的有监督学习效果。

打造典型人工智能行业应用

“与单模态和图文两模态相比,‘紫东太初’采用图、文、音三模态大模型,可以灵活支撑全场景的人工智能应用。”王金桥说,“‘紫东太初’还具有在无监督情况下多任务联合学习以及不同领域数据快速迁移的强大能力。引入语音模态后的多模态预训练模型,可实现共性图文音语义空间表征和利用,并突破性地直接实现三模态的统一表示,对更广泛、更多样的下游任务提供模型基础支撑。”

“目前,我们已经整合了产学研用各方面的资源,打造了一系列典型的人工智能行业应用。”王金桥说。在智能制造领域,“紫东太初”可以有效降低模型训练对于样本数量的依赖,同时提升算法性能。

“紫东太初”还与杭州移动共同打造了为杭州文旅代言的智能文旅虚拟人“杭小忆”。“紫东太初”的多模态对话支持南宋御街场景陶瓷、丝绸、活字印刷、特色小吃等场景化数据的增量训练,助力南宋御街的导游、导购人工智能数字人实现语音识别、中文对话、语音交互、以音生图等功能。

姓 名:
邮箱
留 言: