新闻

皇派门窗荣获第九届佛山市长杯工业设计大赛「产品...

近日，第九届佛山 “市长杯” 工业设计大赛获奖名单重磅揭晓，皇派门窗「普罗旺斯Pro断桥隔热提升推拉窗」...

国产40GHz测试线，恒利泰发货速发！
凌晨两点,深圳某头部代工厂产线灯火通明。最后一台网络分析仪正在“跑”当天第3000块5G小基站PCBA。操作员小张把一根黑色2.92 mm柔性电缆往测试口一插——仪器底噪纹丝不动,反射被“吸收”得干干净净。他打了个...
化工事故年损百亿？谷东科技AR黑科技如何化险为夷？
化工行业年产值3.6万亿美元,背后却藏着触目惊心的安全隐患。数据显示,我国每年化工灾害事故高达百起,直接经济损失超百亿。在安全生产与数字化转型的双重压力下,传统手段已难以为继。而今,一项“黑科技”正在重塑行...
全国农技中心到广东调研智慧农业，丰农控股获高度认可
3月19日至22日，全国农业技术推广中心组织浙江、山东、广西、四川、陕西、广东等省农技推广部门领导专家，调研广东智慧农业。调研组以现场查看、座谈交流等方式，聚焦智慧果园，深入走访广州、韶关、河源、惠州、...

科技

勇闯前人未至之境，Pimax Frontier 2022破界而来

北京时间11月10日上午10点，小派科技将携又一款VR3.0力作在PimaxFrontier2022海外发布会正式亮相。去年...

G客 4力释放！耕升 GeForce RTX® 40系列GPU评测解...
2022年9月20日,NVIDIAGTC 2022主题演讲在美国加利福尼亚州圣克拉拉举办。在本次主题演讲中,无数玩家和创作者们期待的GeForceRTX®40系列GPU和NVIDIA®DLSS 3正式发布,为玩家和创作者带来巨大的性能提升。 &n...
“破圈”的协作机器人|看越疆如何赋能新商业！
协作机器人以革新的人机交互技术,打破了传统机器人应用场景的边界,由于安全易用,灵活智能等先天优势,协作机器人在越来越多的场景下释放出巨大潜能,从工业到商业应用快速延伸,势如破竹,触发了前所未有的机遇。 ...
用高科技替代除草剂保障粮产与食品“双安全”
“新冠肺炎疫情迅速蔓延全球，一些国家和地区正在加强贸易管控。对于我国粮食安全同样带来严峻考验。”近日，在江苏扬州江都区宜陵镇北斗导航数字化精准化物理除草新技术现场会上，扬州大学机械工程学院张瑞宏教授...

AI从“一专一能”迈向“多专多能”

发布时间：2022/09/20 科技 浏览：300

近日，2022世界人工智能大会在上海举行，由武汉人工智能研究院、中国科学院自动化研究所和华为技术有限公司联合研发的“紫东太初”多模态大模型项目获得了此次大会的最高奖项。“此次大会的‘智联世界，元生无界’主题，恰好揭示了人类智能未来发展的两大方向，智联世界代表弱人工智能对物理世界的作用及改造，而元生无界则代表着利用人工智能技术构建元宇宙，实现虚实融合的新型世界。”中国计算机行业协会数据安全专业委员会委员、北京理工大学网络与安全研究所所长闫怀志说。

中国科学院自动化研究所研究员、武汉人工智能研究院院长王金桥表示，“紫东太初”是全球首个图、文、音三模态大模型，开创性地实现了图像、文本、语音三模态数据间的“统一表示”与“相互生成”，实现了“以图生音”和“以音生图”，理解和生成能力更接近人类，为打造多模态人工智能行业应用提供创新基础，向通用人工智能迈出了重要一步。

“紫东太初”具备部分类脑特性

在闫怀志看来，通用人工智能旨在制造出像人类一样思考、像人类一样拥有全面智能、能够从事多类型工作的机器，因此又被称为强人工智能。目前的人工智能充其量只是承袭了人类的认知结果，远未形成不同感官之间的、相互确定的认知能力。

传统的人工智能，比如大名鼎鼎的阿尔法围棋（AlphaGo），在一些领域内已经“孤独求败”。不过，北京德火科技有限责任公司技术总监李岩表示，现阶段许多行业内应用的人工智能技术仍处于比较初级的阶段，与科幻电影中设想的各类人工智能应用还相去甚远。

在王金桥看来，人工智能一路发展至今，虽然取得了许多突破与进步，但仍存在三大主要局限：首先，人工智能模型的功能单一，一个模型只能解决一个任务；其次，人工智能模型的训练依赖于大量的样本，如果缺乏足够的样本支撑，训练也就无从谈起。以训练人脸识别数据库Webface为例，需要2.6亿张图片才能训练出一个可用的模型；最后，人工智能模型的泛化能力差，不能应用于广泛的应用场景。

“我们一直以来都在追求如何解决当前人工智能‘一专一用’的问题，基于自监督学习的多模态预训练模型是当前的一个重要发展路径。”王金桥说。

自监督学习指的是从大规模的无监督数据中挖掘隐含的监督信息进行训练，从而得到对下游任务有价值的表征，相比于传统的深度学习，是更接近人类的学习方式。

“能否在同一个维度、同一个空间，面对不同的场景提供同一个多模态大模型，摆脱‘一专一能’，是实现人工智能通用化的基础。”王金桥说。“紫东太初”可以将图像、文本、语音等不同模态数据实现跨模态的统一表征和学习，突破了当前AI技术局限，具备部分类脑特性，从“一专一能”迈向“多专多能”。

闫怀志指出：“本质上，‘以图生音’和‘以音生图’仍然是一种基于数据的人工智能，但它更接近于人类的理解和思考方式，因此可以被视为从弱人工智能向通用人工智能迈进的重要基础性工作。”

实现三模态内容的统一与重现

曾经，“以图生音”和“以音生图”只是幻想，而如今的“紫东太初”却让这两者成为了现实。“以图生音”和“以音生图”究竟是如何实现的？实现图、文、音三模态转化的真正关键以及底层逻辑是什么？

据悉，“紫东太初”三模态间的相互转换和生成，其核心原理是视觉、文本、语音不同模态通过各自编码器映射到统一语义空间，然后通过多头自注意力机制学习模态之间的语义关联以及特征对齐，形成多模态统一知识表示；之后，再利用编码后的多模态特征，通过解码器分别生成文本、图像和语音。

王金桥表示：“通俗地说，‘紫东太初’就是将形式各不相同的三模态内容转化为一个统一的多模态知识表示，之后再次利用这种知识表示重新生成三模态内容，以此实现‘以图生音’和‘以音生图’。”

同时，王金桥还表示，“紫东太初”凭借四大突破，有效助力以多模态认知为核心的通用人工智能发展。

具体来说，一是首次提出多层次、多任务跨模态自监督学习框架，支持从词条级走向模态级、样本级的三级预训练自监督学习方式；二是首次完成弱关联多模态数据语义统一表示，减少数据收集与清洗代价；三是首次实现多模态理解与生成任务的统一建模，支持跨模态检索、多模态分类、语音识别、图像生成等理解与生成任务；四是首次实现无监督超越有监督方法，基于5%—10%的数据标注，实现100%的有监督学习效果。

打造典型人工智能行业应用

“与单模态和图文两模态相比，‘紫东太初’采用图、文、音三模态大模型，可以灵活支撑全场景的人工智能应用。”王金桥说，“‘紫东太初’还具有在无监督情况下多任务联合学习以及不同领域数据快速迁移的强大能力。引入语音模态后的多模态预训练模型，可实现共性图文音语义空间表征和利用，并突破性地直接实现三模态的统一表示，对更广泛、更多样的下游任务提供模型基础支撑。”

“目前，我们已经整合了产学研用各方面的资源，打造了一系列典型的人工智能行业应用。”王金桥说。在智能制造领域，“紫东太初”可以有效降低模型训练对于样本数量的依赖，同时提升算法性能。

“紫东太初”还与杭州移动共同打造了为杭州文旅代言的智能文旅虚拟人“杭小忆”。“紫东太初”的多模态对话支持南宋御街场景陶瓷、丝绸、活字印刷、特色小吃等场景化数据的增量训练，助力南宋御街的导游、导购人工智能数字人实现语音识别、中文对话、语音交互、以音生图等功能。

上一篇: 地球自转为何也在“赶时间”？

下一篇: 我研究人员首创用微波直接驱动机器人

发布时间: