“女儿概念股”效应:多模态或成AI应用胜负手

“别人的股票”因为“别人的女儿”站在了风口浪尖上。

硅谷AI创业明星Pika的爆红,不仅让新亚达这只“女儿概念股”收获两个涨停,更是将这股暖风吹向了a股AI应用板块。

12月1日(周五)午后,昆仑万伟、万兴科技涨停,汤姆猫、福鑫软件、国脉文化等多只股票强势上涨。

不过,新亚达12月1日盘后再次公告:截至本公告日,公司无与人工智能视频生成相关的相关产品和服务;Pika开发团队的创始人之一郭文静并未在该公司任职。

要充分理解这一波“女儿概念股”效应的蔓延,首先要了解鼠兔有什么过人之处。

回到故事的起点,Pika,公司首款产品Pika 1.0是一款视频生成应用,于北京时间11月29日正式上线。通过输入文字和图片,Pika 1.0可以生成不同风格的3D动画、动画、漫画和电影,并支持视频的实时编辑和修改。

“文声视频”是这个应用的核心功能。与“文圣图”底层技术一致,但实现难度更大,成本更高。可以看作是文本生成图像技术的高级版本,两者都属于生成式人工智能的多模态应用。

可以说,Pika的强大功能再次唤起了市场对AI应用的无限想象,也点燃了沉寂已久的AI应用板块。

多模态——拓展人工智能应用场景的关键

多模态是指多模态信息,包括文本、图像、视频、音频等。

AI领域的研究一直致力于通过技术实现计算机对人类认知世界的高仿。人类有五种模式:视觉、听觉、触觉、味觉和嗅觉。单峰相互作用显然是一个有限的和不完整的模型。因此,“多模态”研究的大趋势是非常明确的。

OpenAI发布的GPT-V4自带语音和图像处理功能,标志着ChatGPT正式进入多模态时代,也表明了这家领先的AI公司打造多模态AI应用的决心。

同时,Google、Meta、微软也在其中投入了人员和精力;XAI为Xperium+用户推出聊天机器人Grok,并希望未来开发图像生成、图像识别和语音识别等多模态能力…谷歌实用的科技

对公司而言,多模态能力提高了AI应用的泛化能力,是产品的核心竞争力;对于行业而言,多模态是AI应用场景拓展的关键,应用生态的完善将反哺上游,有望进一步推动硬件端迭代。

中信证券判断,多模态将是推动AI热点向前发展的下一个增长点。预计下一代multimodal将快速拓展当前大语言模型有限的应用场景,显著提升语言模型的泛化能力,并有望在成本上显示出相对于传统专有模型的优势,从而推动AI Agent等应用的落地,进一步推动自动驾驶、机器人等应用的革命性突破。

天风证券表示,多模态GPT-4V API开放,有望将现有图像、视频转化为新的训练数据,并有望结合LBS和社交网络诞生新的应用,生态应用的开发将为硬件的发展提供有力支撑。

头部公司还没开仓,竞争才刚刚开始。

虽然multimodal被赋予了巨大的想象空间空,但现实是相关应用的优化迭代速度和商业化进程缓慢。

即使是硅谷的人工智能巨头,如Meta和Google,在文生视频上也进展缓慢,他们的Make-A-Video和Phenaki还没有公开测试;前期火爆的文圣图领域,虽然有Lensa AI和妙鸭相机,但营收持续增长的能力还有待验证。Lensa AI推出人像生成功能后,去年12月前12天收入2930万美元,但2023年7月,全球收入已降至100万美元;妙雅相机一上线就大受欢迎,半个月收入估计超过29万美元。未来需要上线新模板、新玩法来保持收入增长。

技术不成熟是所有公司面临的共同问题。以文盛视频为例,其底层模式和技术仍在优化中,最优模式尚未选定。这也导致了一些热门应用的通病,比如RunwayGen-2和Zero Scope:复杂角色动作生成的帧连续效果差;非日常场景的视频架构能力一般;多代理视频生成缺乏逻辑连续性。

这也是Pika诞生的原因——创始人郭文静和同学认为当时Runway和Adobe Photoshop的AI工具不好用,于是萌生了自己制作类似工具的想法。颇有点“干坤未定,你我皆黑马”的味道。

多模态AI应用会带来哪些投资机会?

科技部 奖项科技创新对标

对于大型模型,多模态生成所需的计算量和存储量远高于纯文本模型。

中信证券表示,在传统的纯文本语言模式下,24MB的存储空大约可以处理4000-6000字。如果我们假设用500个字来描述图片中的所有信息,那么处理图片所需的计算能力大约是文字的8-12倍。

这只是图片模式和文字模式的比较。视频生成应用的计算能力和存储能力需求大于图片生成应用。

基于此,AI多模态加速燃烧的计算力和存储力将为这两条产业链带来更多想象空间。

郭盛证券看好多模态发电领域计算能力储备厂商的发展。它以文生图形应用Midjourney为例。该应用日活跃1500万,年收入过亿美元。其多版本无限套餐和高速GPU服务体现了市场对计算能力的巨大需求。这家机构的分析师认为,目前国内的文艺图片大多是按米付费,并没有无限套餐,或者说因为计算能力有限,有计算能力储备的云服务厂商在开发视频生成应用方面有天然优势。

从应用方面来看,多模态人工智能工具有望为媒体行业提供支持。

华西证券认为,AI天然具有情感陪伴的属性,多模态技术将其能力从文字交互拓展到影视生成。长城证券也表示,多模态能力的突破将有助于拓展AI的应用场景,传媒行业的游戏、电影、广告营销、数字媒体等板块有望受益于AI多模态能力的提升。

郭盛证券的宋佳吉明确指出,艾文生视频是多模态应用的下一站。该分析师表示,文声视频技术的成熟和广泛应用将给热门短剧市场带来变数。该技术有望大幅降低短剧制作的综合成本,为普遍存在的“重制作轻创作”问题提供解决方案。短剧制作的重心有望回归高质量的剧本创作。

未经允许不得转载:科技让生活更美好 » “女儿概念股”效应:多模态或成AI应用胜负手