笔者参加了几届阿里云栖大会,每一届都有不同的主题。但近两届,有一个越来越明晰的主线,那就是云与AI的融合。
这一届的阿里云栖大会,无论是从主题演讲还是展览设置,这种云+AI的感觉都很强。在阿里巴巴的高层中,吴泳铭作为技术派,对AI更是情有独钟。他主导阿里之后,从各条业务线,都能明显的看到AI化的痕迹。
其中,阿里云是承担整个阿里集团AI梦想的基石和载体。吴泳铭在担任阿里巴巴集团CEO的同时,还兼任阿里云智能集团董事长、CEO,可见其对于云业务的重视。
我一直以为,决定一个公司发展高度的,不在于在某个技术或者产品上的一时领先,而在于高层尤其是“话事人”的认知,他如何看待这件事情,才是决定事情走向的最关键变量。一旦认知和决心到位了,就会有一系列的行动,那资源、人才、资金自然会聚集,随之而来的技术产品创新,就是水到渠成的事情。回想当初,阿里巴巴在几家头部互联网公司中,也不是技术基因最强的,为什么云计算做的最好?马云当初的决绝和坚持,起到了关键作用。
所以,这一届阿里云栖大会,我最关心的不是阿里云又发布了什么产品,而是其“话事人”如何看待云和AI这件事情。
在上午的主论坛上,关于AI和云,吴泳铭说了不少很新颖的观点。其中,有一个观点挺有趣:生成式AI让世界有了一个统一的语言——Token。AI模型可以通过对物理世界数据的Token化,理解真实世界的方方面面。理解之后,AI就可以模仿人类去执行物理世界的任务,这将带来新的产业革命。
接下来,我们试图就这一观点来进行分析探讨。
信息世界的“巴别塔”,为什么AI至今无法通晓万物?
语言,是信息传递的基础。它不仅是人与人之间沟通的桥梁,更是技术世界中信息流通的核心。在人类社会中,语言承载了思想、文化和知识的传递。在技术领域,语言的作用更为关键——它是指令、数据、算法的表达形式,是所有信息交互的根本。
尤其在AI领域,语言的重要性愈发凸显。AI通过自然语言处理来理解和生成文本,通过代码语言来执行任务,通过视觉语言来识别和处理图像。这些不同的“语言”构成了AI理解世界的多种维度。然而,这些语言之间的割裂,成为了AI发展的最大障碍。
当前的数字化世界,信息以多种模态存在——自然语言、程序代码、图像、视频、音频、3D模型、数学符号……这些信息形式各自独立,彼此之间的“对话”几乎不存在。AI虽然能够在单一模态下表现出色,但面对多模态信息时,却往往显得力不从心。
这种割裂,不仅增加了技术开发的复杂性,也极大限制了AI的智能表现。我们可以想象,一个AI能够精通各自独立的“语言”,但当这些语言需要被整合时,AI就如同陷入了信息的“巴别塔”,难以将所有信息串联起来,形成全面的理解。
这种多模态割裂直接导致了技术发展的瓶颈。以自动驾驶为例,自动驾驶汽车需要整合多种传感器的数据,如摄像头捕捉的视觉信息、雷达提供的距离测量、GPS带来的定位数据等。这些数据形式各不相同,处理它们的难度非常大。尽管每一种传感器的单独表现都很优异,但当所有数据需要整合成一个统一的驾驶决策时,AI常常会出现延迟、误判,甚至失效的情况。
在医疗领域,医生常常需要结合影像数据、化验报告、病历记录等多模态信息来做出诊断决策。AI在这些单一领域内表现优异,但在将这些多模态数据整合为一个全面的诊断模型时,依旧存在巨大挑战。多模态数据之间缺乏统一的表达方式,导致AI难以在复杂的诊疗场景中发挥出应有的智能水平。
要让AI突破这些限制,实现从“聪明”到“通晓”的进化,就必须有一种能够跨越各种信息形式的通用语言。这样的语言可以将不同模态的信息标准化、统一化,使AI能够在处理多模态信息时不再受制于割裂,而是能够像人类一样,自由地整合和应用各种信息。
这个通用语言的出现,不仅将为AI带来更强的理解力和适应力,也将为技术开发者带来更大的自由度和创造力。AI将不再被困在“巴别塔”中,而是能够在一个统一的语言环境中,真正展现出全面的智能。
这一切,都为Token的出现提供了广阔的舞台。那么,Token,作为信息世界的通用语言,将如何打破这些壁垒,成为AI的全新“语言”工具?
Token来了:AI终于找到了一种语言,它能“听懂”一切!
Token是信息世界的基本单位,类似于语言中的单词或语法结构,但其功能远超普通符号。它不仅是信息的最小表达单元,更是多模态信息处理的核心工具,能够将文字、图片、视频、语音等不同形式的信息标准化为统一的符号系统。这一标准化过程使得AI能够跨越模态边界,实现统一处理,进而在更复杂的任务中表现出色。
技术上,Token的生成过程包括将原始数据分割成最小的信息片段,这些片段可以是单词、图像的像素块、音频的片段等。这些片段通过编码过程被转化为固定长度的向量,代表了信息在AI模型中的特征。解码过程则将这些向量重新转换为可供人类理解的形式,比如文字、图片或声音。通过Token的编码和解码,AI可以在不同信息模态之间进行流畅的转换和整合。
以阿里巴巴的最新多模态大模型通义千问为例。在此次云栖大会上,阿里云的通义千问展示了最新的文生视频功能。至此,通义千问进化为一个集成了文本、图像、视频和语音处理能力的大模型,它展示了Token技术在跨模态信息处理中的应用。
举个具体的例子,假设你输入“中国风的小兔子,身着精致的唐装”,通义千问能够生成一段包含这些元素的视频。在这个过程中,通义千问将输入的文本内容首先分解为文本Token,然后将这些Token映射到一个语义空间中,生成相应的视觉。
可以说,Token的出现,为信息处理带来了革命性变化。它如同中国古代的“书同文、车同轨”,通过统一标准,使得原本各自为营的信息模态可以在同一个语义层次上互相交流。过去,AI只能在单一模态中发挥作用,而通过Token,AI实现了跨模态的信息整合,打破了原有的技术壁垒。
这种跨模态能力,使得AI在信息融合、理解和生成上的表现大幅提升,推动了人工智能从单一智能向全面智能的进化。
Token的商用化路径,云计算如何成为关键推手?
Token技术,虽然在理论和实验室环境中展现了巨大的潜力,但将其推向大规模商用并非易事。一个显著的挑战就是其高昂的计算和处理成本。
Token的处理,涉及海量的数据分割、编码、解码以及跨模态的信息融合。这些操作需要强大的计算能力和极高的资源消耗。特别是在面对复杂的多模态任务时,AI模型需要处理数以百万计的Token,这对计算资源提出了严苛的要求。传统的计算架构在应对这种大规模需求时,往往捉襟见肘,无法提供足够的计算能力和处理效率。
此外,Token的实际部署还涉及数据的实时处理和大规模分布式计算。无论是在自然语言处理、图像识别,还是在视频生成等应用中,Token化的过程都需要高速且稳定的计算资源。然而,现有的计算资源体系结构,尤其是在面临大规模并行任务时,常常无法高效应对。这导致了Token技术在商用化过程中遇到的瓶颈,严重制约了其在更广泛领域的应用。
解决Token商用化挑战的关键,正是在于云计算的技术推动。云计算通过其独特的优势,为Token的广泛应用提供了强有力的支撑。
例如,阿里云的分布式计算架构允许AI模型在多个节点上并行处理Token任务,极大地提高了计算效率。在数据存储方面,阿里云通过优化存储架构,使得Token化过程中产生的大量数据能够被快速读写和存取,减少了数据处理的延迟。此外,阿里云还通过智能调度算法优化了计算资源的分配,使得计算任务能够在最短时间内完成,同时最大限度地降低资源浪费。
阿里云在降低AI成本方面取得了卓越的成绩,尤其体现在通义千问推荐模型的价格调整上。最新数据显示,通义千问系列模型的价格降幅高达85%,这是一个极具竞争力的调整。具体来看,QwenPlus模型的价格降至0.0008元/千Token,QwenTurbo的价格则为0.0003元/千Token。
此外,阿里云还推出了新用户福利——5000万免费试用Token和4500张图像生成权限。这些优惠措施不仅降低了企业在AI应用中的前期投入,还显著提升了用户的体验和接触AI技术的机会。结合阿里云在推理输入方面的优化,这些降价和优惠策略大大减轻了企业在AI应用中的成本压力,使得高性能AI模型的普及成为可能。
通过云计算的支持,Token技术不再局限于实验室或小规模应用,而是能够在更大范围内进行推广和部署。这种协同效应不仅解决了Token商用中的瓶颈问题,还带来了更高效、更经济的AI部署模式。企业能够以更低的成本、更高的效率,利用Token技术实现智能化转型,从而在市场竞争中占据优势。
技术突破之后,如何让Token走向商用前线?
展望未来,随着大模型与云计算的深度融合,AI的应用前景变得更加广阔,潜力无穷。正如阿里巴巴CEO吴泳铭在2024年云栖大会上指出,AI的最大想象力并非局限于创造新的移动应用,而在于彻底重塑物理世界。
这一变革的核心驱动力正是生成式AI与Token技术的结合,Token作为信息世界的“通用语言”,能够将文字、图像、视频、声音等多模态信息统一处理,使AI不仅能够理解复杂的数据,还能够模仿人类行为,执行各种任务。这种能力将为AI在各行业中的应用开辟广阔的空间。
同时,随着先进AI模型的开发成本不断攀升,达到数十亿甚至数百亿美元,云计算的重要性愈发突出。阿里云这样的云厂商,凭借其强大的算力基础设施,正在为这一趋势提供必要的支持。
未来,云计算架构将从以CPU为主转向以GPU为主的AI计算体系,满足AI日益增长的算力需求。这种计算体系的转变,不仅将大幅降低AI应用的成本,还将加速AI在各行业的广泛渗透。
例如,在AI大模型的支持下,未来所有能够移动的物体都可能成为智能机器人——从工厂中的机械臂到家庭中的助理机器人,AI将无处不在。工厂将由智能机器人主导,生产效率将大幅提升;家庭生活也将因智能机器人的加入变得更加便利和高效。
当然,这种变革的影响不仅局限于机器人领域。随着AI驱动的数字世界与具备AI能力的物理世界的深度融合,全球生产力将迎来一次革命性的提升。无论是自动驾驶、智能医疗设备,还是金融风险管理系统,AI将成为推动各行业发展的核心力量。