当前位置: 主页 > 国内 >

天图万境发布空间智能模型轻舟,AI类脑MoE框架启用!

时间:2024-07-09来源:互联网 作者:编辑 点击:
导语:    天图万境“轻舟”AI空间智能大模型的设计框架,是以丰富、多样的专用垂类“专家”模型建立AI不同方面的感知能力,如视觉、听觉;再以改良后的类似MoE的“联级神经元

导语:   

天图万境“轻舟”AI空间智能大模型的设计框架,是以丰富、多样的专用垂类“专家”模型建立AI不同方面的感知能力,如视觉、听觉;再以改良后的类似MoE的“联级神经元”架构形成类人脑中枢,协调统一指挥。这样的框架可以模拟人脑的构成方式,减少对实时算力的需求,提高模型的准确性。

探讨科技创新趋势,洞察行业动态发展。

2024年6月27日,首届中国·重庆科技电影周高峰论坛“科技创新赋能影视产业”,在重庆永川国际会展中心举办,吸引了来自全球顶尖的制作人、行业权威、学术专家等嘉宾齐聚,共同拓展科技+电影的高质量发展蓝图。

天图万境创始人图拉古受邀出席大会,在主旨演讲环节分享了天图万境在AI感知视听技术和空间计算领域的最新成果,现场发布了使用AI感知视听技术研发的空间智能大模型“轻舟”。这也是以感知视听技术为核心的空间智能大模型的首次亮相。

图:天图万境创始人图拉古做主旨演讲

图拉古认为,人机交互除了人类主动向机器输入提示词和意图之外,机器必须也要具备能够主动识别空间环境,认识人类意图能够进行自我行动和决策的能力。而这样的能力正是需要机器像人类一样拥有可以观看的眼睛,听声的耳朵,最终将这些信息输送给大脑,并做出决策和行动。

为此,天图万境此次发布的空间智能大模型“轻舟”,正在努力补齐该领域的短板。

图拉古和他的团队,正在从更有挑战的技术路径来突破AI技术难关,从生命科学、仿生神经元架构角度,探索下一代AI大模型的发展方向。

AI大模型进入感知时代

如果我们希望AI超越当前的能力,那么就不仅仅需要会对话的AI。更需要能够通过视听感知周围的AI,能够做出行动和决策的AI,一个全新的AI计算机视觉AICV+AI听觉的感知时代正在到来。

什么是感知?图拉古在论坛现场分享了他和团队研究的新理论,即让AI拥有跟人类一样的视觉、听觉,并以此为基础认识世界,建立对三维空间的认知能力。

图:天图万境创始人图拉古讲解AI类脑“MoE”框架

人是通过五感来认知世界的,而视觉获得的信息占了83,听觉也占了11,所以听觉和视觉是人类获得信息的重要途径。

当大脑接收到某种信号之后,就会通过经验和记忆来预判事物并做出行动决策,例如人们通过判断泼水的方向来决定是否需要躲避。甚至我们都不需要看到画面,仅通过听一段音频,比如汽车呼啸而过的声音,我们就可以脑补到一辆离我们近了又远了的赛车,而且能够感受到它的速度极快;这些都是我们人类作为空间智能生物与生俱来的本领。

AI空间智能大模型,就是仿照人类的感知能力,让AI建立视觉系统、听觉系统和大脑中枢。

AI空间智能大模型是一种改进的MoE框架,MoE 起源于 1991 年的论文《Adaptive Mixture of Local Experts》(论文出处见文末链接)。该论文的理念与集合方法类似,都是为由不同网络组成的系统提供监督程序,每个网络处理不同的训练集子集。每个独立的网络或者说专家擅长于输入空间的不同区域。至于如何选择专家这个问题,是由门控网络来决定每个专家网络的权重。在训练过程中,专家网络和门控网络都要接受训练,这种框架也被称为专家混合 MoE ,是 LLM 中常用的一种技术,旨在提高其效率和准确性。

图拉古认为,在 AI视听领域,它应该是一种改良的类脑框架,主要是关注于主动决策和主动分析,它需要把每一个专业的垂直 AI 模型作为一个专家神经元看待,互相连接,彼此通讯,这就像大脑一样,有负责语言的区域,有负责音乐的区域,有负责行动的区域,有负责平衡的区域,他们虽然都在一个头颅内,可是各自却是独立的,最终靠神经中枢来协调并做出反应,多个区域之间靠生物电通讯。

AI感知视听(人工智能视觉听觉)技术和全新改进的MoE框架,称之为“联级神经元”框架,正是模拟人类的大脑多区域总决策行为。让人工智能具有与人类相似的视觉、听觉感受,再通过联级神经元框架,像人的“大脑”中枢系统一样,将这些AI能力联接起来,实现对世界的记忆力、理解力、分析力,并做主动决策和行动。

主动分析、主动获取、自主决策

AI感知视听技术和联级神经元框架与其他大部分大模型所带来的区别主要是主动性和被动性的区别。图拉古表示,天图万境的团队希望创造一个更加理想的空间智能,让机器为我们做事,或者帮我们做事。在我们常见的大模型中,多数是人类触发一个意识,然后用机器执行,比如文生文,文生图,文生视频,或者被动搜索。我们如果希望有一天机器可以帮助人类解决各种各样的问题,就像你身边最好的帮手可以解决你所有的困境,可以代替你做你所有不想做的事情,可以在你困难或者遇到挫折的时候主动安慰你,或者和你交流,帮你解决糟糕紧急事情的时候,那么机器必须要拥有像人类一样的自主性,同理心和决策行动能力。

视听技术的突破,让AI有机会向类人脑进化

AI感知视听技术的推出,代表了空间智能领域的一次重大尝试。那么到底是如何让AI建立视觉体系?在现场图拉古以AI空间智能大模型-“轻舟”如何实现对视觉的判断和感知能力做了讲解。

看似抠绿,实则无绿。

应用在电影行业中,一项特效技术被称为抠像,是把背景的绿幕去掉。而AI空间智能大模型“轻舟”,它模仿人类大脑的认知过程,通过观察图像并根据特定场景的规则做出决策,决定保留或去除哪些部分,能够在非绿背景下识别并区分不同的物体和场景。

图拉古举例说明,人类伸出一只手指,当注意力集中于手指的时候,手指是清晰的,背景就是模糊的;当注意力转向背景时,背景是清晰的,手指就是模糊的;而手指清晰的时候,人类可以识别手指锐利干净的轮廓,甚至模糊的时候,也可以理解手指的位置和空间关系,并知道手指此刻的行为含义。

眼睛注意力在手指时背景是虚的,眼睛注意力在背景时手指是虚的

而在机器视觉中,我们希望任何一种摄像头,任何一个画面都可以建立人眼和人脑综合识别效果,所以我们将绿幕图像首先以人脑注意力机制的方式来处理图像,进而以人类理解世界的方式来分割图像。

图拉古再次表明,这样的方式与经典抠绿技术路径完全相反,抠绿是要选择把绿色背景去掉,空间智能AI模型-“轻舟”的方式则是选择要把什么留下来,注意力并不在背景。

经典算法关注于背景颜色,空间智能AI模型-“轻舟”关注于目标主体

把什么留下来会非常困难,因为留下来的东西千奇百怪,千模百样。这就必须要让机器理解世界的复杂性,理解事物的关联,并拥有人脑的记忆和推理能力。

AI空间智能模型-轻舟的工作机制中,所有的机器决策和行动都实时发生,图像处理拥有电影级精度。

【AI 空间智能模型-轻舟】第一步:

通过摄像头获得原始图像↑

【AI 空间智能模型-轻舟】第二步:

模拟人脑和人眼的注意力机制,注意力放置于主体↑

【AI 空间智能模型-轻舟】第三步:

模拟人脑认知机制,分割需要的物体,而非绿色↑

【AI 空间智能模型-轻舟】在视听产业的应用非经典抠绿技术,而是AI类脑注意力机制↑

而这样的技术,绝不仅仅只能用在视听产业里,未来任何需要像人类一样的具身智能系统,都将需要实时的认识世界,知道面前所看到的到底是什么、在做什么,机器要如何为它看到的东西做出理解决策和行动。

【AI 空间智能模型-轻舟】在各行各业的技术应用前景↑

图拉古又举例了另一项技术-空间计算;人类看到的空间都是三维的,而绝大部分计算机看到的空间都是平面的,尽管人类可以通过激光雷达或者多幕摄像头传感器来计算空间,但这样的过程都是复杂的或者计算开销巨大的。天图万境的技术通过空间智能大模型,可以无需依赖外部传感器,实时推理4K分辨率的稳定空间信息。

【AI 空间智能模型-轻舟】无需任何空间传感器,实时推理4K空间深度信息↑

这意味着未来任何传统的平面图像或视频都可以再次以立体的方式呈现在计算机面前,而这样的方式正是人类看到和理解的世界,未来机器也会以这样的方式重新来认识和感受世界。

【AI 空间智能模型-轻舟】让机器看到立体的空间世界

而在听觉方面,天图万境也与华为云共同研发了视频声效技术,这样的技术将模拟人类的听觉,通过声音来感知这个世界并形成联想的画面或空间关系。

天图万境与华为云共同研发视频声效大模型解决方案

图拉古最后表示,AI感知视听技术起源于电影,随着技术迭代和发展,现在的应用场景将不再局限于电影。而正是在电影这样顶尖艺术的严苛要求下,如今的AI感知视听技术和AI空间智能模型“轻舟”才能超越其本身的意义,赋能千行百业。目前这样的技术在矿山挖掘、消防检测以及生活助手等多个领域具有巨大的潜力发展空间,未来任何具身智能系统都需要像人一样看到听到世界,并通过这些信息来做出大脑决策,指挥机器行动。

“轻舟”AI空间智能大模型的发布,将为“联级神经元”框架的探索做出第一步尝试,这样电影级精度的呈现结果,将进一步推动 AI 的“智力”发展,相信未来这些更具有仿生类脑的 AI 框架技术将开启一个人机和谐、便捷高效的新未来。

顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
文章导航
推荐内容