作为阿里云践行MaaS理念的重要探索之一,2022年推出的AI模型社区魔搭(Modelscope)已经成为国内规模最大、生态最活跃的AI开发者社区,集聚180多万AI开发者和900多个优质AI模型,模型累计下载量超过3600万。
继此前推出M6、OFA系列多模态模型之后,阿里云通义千问团队又开源了基于Qwen-7B的大规模视觉语言模型(Large Vision Language Model, LVLM)Qwen-VL。在Qwen-VL 的基础上,通义千问团队使用对齐机制,打造了基于LLM的视觉AI助手Qwen-VL-Chat,可让开发者快速搭建具备多模态能力的对话应用。
Qwen-VL以Qwen-7B为基座语言模型,在模型架构上引入视觉编码器,使得模型支持视觉信号输入,并通过设计训练过程,让模型具备对视觉信号的细粒度感知和理解能力。再比如,输入一张上海外滩的照片,让Qwen-VL找出东方明珠,Qwen-VL能用检测框准确圈出对应建筑,这是视觉定位能力。Qwen-VL可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景。在主流的多模态任务评测和多模态聊天能力评测中,Qwen-VL取得了远超同等规模通用模型的表现。Qwen-VL支持的图像输入分辨率为448,此前开源的LVLM模型通常仅支持224分辨率。
在四大类多模态任务(Zero-shot Caption/VQA/DocVQA/Grounding)的标准英文测评中,Qwen-VL取得了同等尺寸开源LVLM的最好效果。比如,一位不懂中文的外国游客到医院看病,不知怎么去往对应科室,他拍下楼层导览图问Qwen-VL骨科在哪层耳鼻喉科去哪层,Qwen-VL会根据图片信息给出文字回复,这是图像问答能力。雷峰网:那应该如何建立自己的优势?张斯成:对于在应用层面如何建立自己的Copilot的优势,我会建议创业者考虑五点。
我认为,接下来会快速从+互联网进入+AI阶段,也就是说,各行业在积极寻找如何具有Gen-AI的能力。无论我们以何种姿态拥抱这个必然发生的未来,无论我们能否在有生之年见证这个奇迹,我们都应该满怀敬畏,放下个体的执念,以延续人类文明为己任来发起和参与这场创业热潮中。领域数据是对客观世界的一种反映和记录,在领域数据的基础上发展出了领域知识。对于职业经理人,情商是一个重要的特质。
而+AI过渡到AI+之间,就是AI-native大行其道的时期。这是我在阅读著作《世界文明中的技术》时得出的重要结论。
第三种是做应用,基于大模型的能力解决实际问题。再如,发展到某个阶段时通用大模型是否会超越大部分的垂类模型?AGI最终是一种世界模型独霸天下还是多种世界模型并存?具身智能是否是实现人类智能的必要条件?我们对以上类似问题的预判都会影响我们对项目前景的置信系数。就所知所闻,谈谈我对业内几个流行观点的看法。半年下来,国内创业社群呈现出内冷外热的感觉:一边是围观百模大战的热闹,一边是缺乏技术成熟、商业可用的基础大模型的尴尬。
当然,2C和2B领域的项目并不会严格区分入场先后,而是会多路并进,只是整体上可能会呈现这种律动。如果说硅谷的泡沫闻起来是香甜的,国内的明显有点苦涩。因为开创一个新业务的过程是几乎没有任何缓冲余地,不仅容错率低,而且血槽也短,经不起几次内部或外部的折腾。最后,是打不死的逆商。
一个新的技术出现时,如果不能快速破圈,那么很可能只会停留在科研和学术的小圈层中。任何创业都是一个时运结合的项目,一方面要吻合趋势发展的方向和可行路径,一方面要掌握好时机和节奏。
这个新一代的云计算平台,将在2B领域掀起新一轮的卡位赛。Copilot这个概念是Mircosoft推而广之的,在与OpenAI建立战略联盟的第一时间内将自家的全线产品都进行了升级。
我个人不会按流派来划分创业团队,那种做法比较江湖范,更多还是看每一个项目对自身的定位是否清晰来判断它最终在产业格局中的可能价值。反观这些大模型厂商,张斯成将其分为四类:一是做基础大模型的研发。所以数据成为了短期竞争的热点,数据的来源、质量、规管等,都有可能会成为瓶颈,反之也就是优势。简言之,没有坚实的大模型底座作为支撑,何谈成熟的上层应用。四是围绕大模型的基础技术或设施,比如工程化、数据库、数据处理等。而且最近流传出来关于GPT-4的训练模型结构中,已经可以看到在工程和算法方面的不少妥协。
因此,2C领域应该是Gen-AI最快产生第一波爆发的地方。从我自己几次参与创业的经历,以及过去在钉钉负责生态时耳闻目睹各种创业伙伴的故事中,这一点都得到了不同程度的印证。
目前各大云计算平台着力推MaaS(model as a service),也在尝试把前两类融合在一起。我相信,2B领域接下来将出现的发展模式,是大模型的数据和计算能力下沉为云计算平台PaaS的一部分,应用和互动能力上升为SaaS的一部分。
但相比之下变,国外以OpenAI、谷歌为代表的大模型技术和生态早已相对成熟,且具备了为上层应用服务的能力。如果我们相信AGI必然到来,这种观点很可能是合理的。
其实,大模型在国内火了已经有半年时间,百度率先嗅到了商机,并发布文心一言,这一举动也顺利揭开了大模型市场的帷幕。目前算法而言大多数都处于同一层面,还没有出现明显的段位差。创业本身就是九死一生(从概率角度看)的历险,何况Gen-AI的不确定性更强(难以预测的程度),所以只有用接近于无条件的信任来做风险对冲,才有可能避免团队的中道崩殂。如果从世界模型的角度看,任何LLMs都在尝试通过对数据的学习来建立和完善其对客观世界的认知。
我认为AGI对人类社会的根本改变是来自对生产力的终极变革,因此2B是最能体现AI对价值体系进行破坏式创新的领域。对于已经处于创业中途的SaaS公司,这个方向是最有机会做成独角兽的。
这种模式在Gen-AI阶段会更加明显。这个有点像过去十五年云计算的发展,公有云和私有云依旧是分庭抗礼,各自精彩。
比如在国内做基础大模型的研发,就必须考虑各大互联网平台公司的存在。由此可见,国内大模型产业正在如火如荼的进行。
虽然前些天有研究者在论文中提到将ChatGPT和机器人结合的实验,但还只是一小步。这其中既有创业文化的因素影响,也有产业格局和路径的原因。在构造世界模型的话题上,以Yann Lecun为代表的学者提出不同的方式来提升学习算法。这也是为何OpenAI在推出ChatGPT之后才迅速成为了大众视野中冉冉升起的明星。
虽说这个听上去有点儿傻,但往往也正是stay foolish的团队才有机会成功闯关。第三,借力打力,不论开源闭源,利用成熟的大模型能力来占据场景、积累用户、建立数据飞轮。
在每一个领域,数据都具有明显的边界。逆商要求一个人要有信念、有行动、有取舍。
结果资本和人才都被各种花式模型拉扯分割无法合力,应用生态又无从繁荣来支撑大模型的故事预期。也就是说,对每个赛道可能终局的猜测,会直接影响是否继续投入这个赛道。