支付宝探一下AI视觉搜索让万物皆可探
近期,支付宝应用内悄然上线了一项创新的AI功能——“探一下”,该功能位于“扫一扫”页面的下方,用户只需简单切换即可体验。这一新功能标志着支付宝在AI应用领域的又一次深入探索。
“探一下”不同于传统的视觉搜索应用,如识物、搜题等,其核心亮点在于“探索”。用户可以通过该功能,不仅识图辨物,还能探知识、探灵感、探文本,仿佛随身携带的一本“视觉百科全书”。例如,在参观画展时,只需打开“探一下”对准画作,画作背后的故事、历史背景和艺术风格便一目了然;在踏青赏花时,对准花朵,不仅能识别出名称和科属,还能获取相关的文化和园艺知识。
“探一下”还具备识别同款商品、提供药物使用指南、翻译外文菜单等功能,并能链接到支付宝丰富的商业生态,提供用车、医疗等服务,使用场景广泛而便捷。在探灵感功能中,该功能还能根据场景灵活配文,无论是幽默还是治愈风格的文案,都能轻松生成,特别适合想晒图却苦恼于文案创作的用户。
这些实用且有趣的功能背后,是视觉搜索产品在GenAI(生成式AI)时代范式转变的缩影。传统基于判别式方案的视觉搜索正在被多模态大模型驱动的AI视觉搜索方案所取代,并逐渐走向规模化应用。在海外,Google Lens凭借GenAI技术已成为谷歌增长最快的查询类型之一,每月视觉搜索调用量超过200亿次。而支付宝凭借庞大的用户群体和商业生态圈,以及深厚的技术积累,“探一下”有望成为国内对标乃至超越Google Lens的视觉搜索产品。
视觉搜索赛道的竞争日益激烈,用户对于视觉搜索的理解和分析能力提出了更高要求。传统的视觉搜索产品大多停留在“识你所见”的层面,复杂场景下的表现并不理想。而“探一下”则采用了多模态大模型全图理解+open-set多主体检测的技术链路,能够识别特定场景中的多个主体,并借助大模型的理解力和知识力,提供更深度和广度的分析解读,从而满足用户对于图片背后更多信息的需求。