2026-06-29

对话Clipto.AI创始人康洪文:没有记忆的AI,只是一个“失忆”的聪明人

**硬件就绪,软件仍缺**

早在1945年,美国科学家Vannevar Bush在其极具影响力的著作《As We May Think》中,便构想了一个名为Memex(记忆延展)的设备。他设想每个人拥有一台机器,能够存储个人阅读内容、照片、笔记和知识,并能如同人类记忆般,协助用户回忆、关联和检索信息。这一构想被视为个人电脑、超文本乃至互联网的早期思想萌芽。

在过去八十年里,计算机、互联网和智能手机的相继问世,存储能力呈指数级增长,人类积累的信息量也以前所未有的速度激增。然而,Bush所描绘的那个关于信息存储与检索的梦想,却始终未能完全实现。其根本原因在于,机器虽擅长存储海量数据,却缺乏形成记忆的能力;它能保存用户一生的信息,却无法在其需要时精准找回特定瞬间。

近期,这一局面开始出现转机。

过去一年,人工智能行业经历了一场基础设施的集体升级。端侧算力已不再是概念,而是成为消费电子产品的标配。例如,英伟达的RTX Spark将AI算力直接集成到PC中;英特尔的Lunar Lake和高通的Snapdragon X Elite分别将笔记本电脑的NPU算力提升至60 TOPS和45 TOPS;苹果也持续将AI能力整合进其M系列芯片。

同时,模型技术也迈入了新的阶段。Llama 3、千问、Gemma、Phi等开源模型在体积缩小的前提下,能力持续增强。llama.cpp、MLX等推理框架的成熟,使得大型模型首次能够在普通个人设备上稳定运行。此外,Apple Intelligence、Copilot+ PC以及英伟达围绕端侧AI构建的开发工具链,进一步将模型深度集成到操作系统中。

从芯片、模型到系统,加之市场教育的深化,“端侧AI”逐渐赢得了用户信任。可以说,AI基础设施的各个层面已基本就绪。

然而,将这些要素组合起来,仍难以打造出一款能让普通用户日常使用的AI产品。核心问题并非单一技术瓶颈,而是缺乏一个能够有效整合模型、硬件、系统与个人数据于一体的产品。

曾经备受瞩目的“消费级端侧设备”Rabbit R1和Humane AI Pin,因产品定位不清而迅速淡出市场。Rabbit R1试图成为新的跨设备交互入口,但未能解答“为何要在手机之外额外购买设备”的疑问;Humane AI Pin虽有替代手机的野心,但炫酷的硬件并未创造实际需求,反而增加了用户体验的复杂性。

更关键的是,这些新兴的端侧设备未能解决一个核心痛点:即便最接近用户个人数据库,AI大脑却常常陷入“失忆”的困境。

行业亟需一个能够整合模型、端侧能力和记忆系统的参与者。

在当前大家普遍关注Agent(智能体)的浪潮中,一个更根本的问题浮现:Agent的长期存在依赖于什么?

两年前,当整个行业还在沉迷于“云端更大模型”时,Clipto.AI创始人康洪文便提出了一个与主流观点相悖的判断:真正的机会将诞生于端侧算力与大模型能力交汇所催生出的新一层基础设施。

他认为,只有当端侧算力和大模型能力这两条技术曲线同时达到临界点,AI才有可能真正成为每个人设备中的“第二大脑”,而非仅仅是一个聊天机器人。而真正的机遇,不仅在于模型本身,更在于构建在其之上的“Memory Layer(记忆层)”。

康洪文及其团队研发的产品Clipto,正是基于这一设想的实践平台。用户只需用自然语言描述所需内容,Clipto便能在数TB的本地视频、音频、图片和文档中,快速定位到相关片段和信息。

但搜索功能只是Clipto对外展示的初步能力。其背后,是一套由十余个自研端侧大模型、推理架构、算力调度系统以及数据组织能力构成的Memory Layer。这套系统使得原本分散的海量数据得以沉淀,形成AI可调用的个人记忆,并能在毫秒级内从海量信息中找回用户遗忘的内容。

2026年5月,Clipto发布新版Mac端App后,登上了Product Hunt日榜第一,端侧与记忆相结合的潜力正逐渐显现。

**“聪明的个体若无记忆,不过是失忆之人”**

在过去一年里,“Agent”已成为AI领域最热门的关键词。各大模型公司、创业公司以及资本市场都在热议Agent,并认为其将继ChatGPT之后,引领AI的下一次产品革命,应用领域涵盖编程、办公、购物、客服等。

Gartner在2026年4月的一份报告中指出,业界对Agentic AI的态度已达到“期望膨胀顶峰”,尽管超过六成企业计划在未来两年部署AI Agent,但目前仅有17%的企业完成了部署。

然而,在这场几乎无异议的追捧声中,Clipto创始人康洪文不断抛出一个看似简单却鲜有人回答的问题:一个缺乏记忆的Agent,真的能够理解用户吗?

他认为,当前大多数Agent建立在一个危险的假设之上:只要模型足够智能,就能成为用户的得力助手。然而,事实恰恰相反。每次启动Agent,它都如同初次见面般,不了解用户昨天的会议内容、照片存储位置或文档积累情况。它能够进行推理,却缺乏经历;能够回答问题,却无法延续对话。

“一个聪明的人,如果没有记忆,也只是一个失忆的人。”康洪文如此说道。

这正是他过去二十多年来持续研究的核心问题。他最初十年专注于机器如何理解世界。2004年,他在微软亚洲研究院实习期间,开发了Xbox应用,能自动分析用户拍摄的大量家庭照片和视频,从数小时素材中提取关键片段并自动生成家庭短片。随后,他在卡内基梅隆大学机器人研究所师从Takeo Kanade,继续研究图像与视频理解,认为理解视频本质上就是理解现实世界。

近十年,康洪文转向研究机器如何生成内容。2017年,他创办AIGC公司“慧川智能”,旗下创作平台“智影”于2020年底被腾讯收购。加入腾讯后,他继续负责文生图、文生视频和数字人等全栈AIGC产品研发。

如今,在Clipto,康洪文将研究焦点重新拉回“理解”,因为他认为生成已不再是AI的最大瓶颈,而“记忆”才是真正缺失的部分。

端侧大模型的出现,为这一技术路线的成熟提供了契机。

康洪文向36氪解释道,云端模型更像是“全球大脑”,负责学习通用知识和理解宏观世界;而端侧AI则应扮演“个人记忆”的角色,专注于理解每一个个体。他预见,未来的AI架构并非云端AI与边缘AI的简单对抗,而是“Cloud Intelligence + Edge Memory”的融合。云端负责世界知识,端侧负责个人记忆,Agent则作为连接两者的交互层。

“Agent只是最顶层的交互界面,决定其智能程度的,不仅是模型本身,更在于其底层是否拥有一个持续进化的Memory Layer。”他强调,这正是行业长期忽视的一个架构性问题。

“模型会迭代升级,Agent也会重构,但用户长期积累的记忆不会轻易迁移。”他补充道。

围绕“记忆层”,Clipto从底层构建了一整套端侧AI技术体系。康洪文认为,许多人将Memory理解为模型拥有更长的Context或接入向量数据库,但真正的记忆层远不止于此。

“Memory不是一个模型,而是一整套系统。”他在采访中阐述。

**第一层是模型。**多模态数据本质上高度异构,视频、音频、图片、文档等每种数据都需要不同的理解方式。Clipto围绕人物识别、语音理解、OCR、场景分析、事件理解等能力,自主研发了十余个端侧AI模型。部分模型基于开源基础模型进行针对性后训练,部分则为完全自主研发。每个模型都针对端侧算力进行了重新设计,而非直接迁移云端模型。

**第二层是端侧算力架构。**与云端近乎无限的算力不同,端侧设备受CPU、GPU、NPU、内存、存储带宽及系统资源的共同制约。为实现多个模型长期协同工作,Clipto从零搭建了端侧推理框架和算力调度系统,能够根据设备资源动态调度不同模型,避免计算资源的争夺。康洪文介绍,Clipto的架构能自动兼容各种配置的设备,包括仅配备8GB内存的M1 MacBook。在最新的M5 MacBook Pro上,Clipto可在约24小时内完成2TB本地视频的离线分析,而若完全依赖云端,同等处理成本约为400美元。

**第三层,也是最关键的一层,是构建记忆本身。**模型能够理解内容,但无法天然形成记忆。系统需要持续地将分散的多模态信息组织成时间、地点、人物、事件等结构化关系,并不断建立跨文件、跨时间、跨来源的关联,最终形成一个持续生长的个人记忆网络。Agent所调用的,将不再是单一模型,而是这套不断积累、持续演化的记忆层。

康洪文认为,这正是记忆层最困难的部分。它横跨模型研发、端侧推理、算力调度、多模态理解、数据组织、时空数据库、知识图谱及检索系统等多个技术层面。任何单一模块都无法构成真正的Memory。唯有将这些能力整合为一套长期运行、持续生长的系统,AI才能真正拥有“记忆”。

“模型会不断升级,Agent也会不断演进,但用户长期积累的记忆不会轻易迁移。真正的护城河,是围绕Memory建立起来的整套技术体系。”他总结道。

“如果说今天的大模型解决了AI如何理解世界的问题,那么Clipto解决的是AI如何长期记住一个人。”

**Clipto:非创作工具,而是记忆基础设施**

Clipto登顶Product Hunt日榜后,真正令康洪文感到意外的并非成绩本身,而是评论区的用户反馈。惯例中,用户多讨论产品易用性或功能丰富度。然而,Clipto上线后,评论区出现了另一种声音:不少开发者询问API是否开放、Clipto能否作为Agent的长期记忆后端,甚至讨论如何将其接入自家产品——此时,Clipto甚至尚未发布SDK。

这释放出一个信号:用户已将其视为一层基础设施,而非仅仅一个搜索工具。这一转变也超出了Clipto团队最初的设想。

起初,康洪文认为最先接受Clipto的会是视频创作者、摄影师等内容生产者。但随着用户增长,团队发现,快速扩大的不仅是创作者群体,还包括金融分析师、律师、医生、咨询顾问等知识工作者。

官方数据显示,目前Clipto的用户中,约1/3为创作者,其余2/3则来自金融、法律、医疗等行业的专业人士。这表明,“记忆管理”的需求比内容创作领域更为广阔且刚性。

过去,人们普遍认为多模态数据管理仅限于视频编辑、影视制作等专业场景。然而,事实上,每一位知识工作者都在持续产生音频、图片、会议记录和文档。会议录音、培训视频、手机截图、播客收藏、PDF文件等信息每天都在增长,却很少能被有效调用。当AI能够真正理解这些数据后,“记忆管理”的需求便不再局限于创作者,而成为所有人的普遍需求。

商业数据进一步印证了这一判断。Clipto上线三个月后即实现盈亏平衡。2025年,公司的ARR(年度经常性收入)达到了1500万美元。对于一家仍处于产品早期且坚持端侧部署路线的AI公司而言,如此快速的商业化速度本身便是一个强烈的信号:市场愿意付费的,并非一次性的AI能力,而是长期积累的个人记忆。Memory并非一个遥远的未来市场,而是一个已被验证的现实需求。

更重要的是,这同样验证了Clipto团队的能力。在许多AI创业公司仍停留在模型能力验证或Demo阶段时,Clipto已率先完成了从底层模型、端侧基础设施、产品体验到商业化的完整闭环。这种跨越底层研发、产品设计和全球商业化的全面执行能力,本身构成了团队最重要的竞争壁垒。

互联网的发展史,本质上是一部基础设施不断演进的历史。PC互联网时代,Google构建了信息检索的基础设施,即人类的公共记忆(Collective Memory),使用户能够“找到世界上的信息”;移动互联网时代,Meta和微信构建了社交关系的基础设施,使用户能够“连接世界上的人”;AI时代,OpenAI解决了“如何推理”的问题,而接下来将面临的,不再是“世界知道什么”,而是“我自己经历了什么”,最终让用户能够“被AI真正理解”。

这正是下一代基础设施的机遇所在。Clipto旨在解决的,正是每个人的个人记忆(Personal Memory)。它不创造新内容,而是持续理解、组织和连接用户过去积累的数字生活,使这些沉睡的数据成为Agent可以长期调用的上下文。

因此,在康洪文看来,未来AI应用真正的竞争焦点,并非模型能力或Agent的执行能力,而是谁能率先建立起这层长期存在的Memory Layer。

“模型可以随时切换,Agent也可以重构,但用户长期积累的记忆一旦形成,迁移成本极高。”

“过去十年,AI公司争夺的是Intelligence;未来十年,真正不可替代、也最难迁移的,将是Memory。”

围绕Clipto的构想、端侧AI、记忆层,36氪近期与Clipto.AI创始人康洪文进行了深入交流。以下是我们整理的部分观点:

36氪:Clipto为何选择从音视频搜索切入?

康洪文:主要有两方面考虑。首先,文本和文件数据已有相对成熟的解决方案,但音视频这类重度多模态数据一直未得到良好服务,且单位处理成本较高。其次,音视频数据天然更多地存在于端侧(因其体量大),这完美契合了端侧优先的场景。我们的种子用户即是那些拥有大量音视频数据、对隐私和价值高度敏感,且现有解决方案未能满足其需求的用户。

36氪:Clipto的产品市场契合度(PMF)为何跑得如此之快?做对了什么?

康洪文:“以终为始”是我们秉持的理念。我们拥有宏大的愿景,但同时也在逼迫自己尽快完成商业化验证。我们做了两个关键决策:第一,以App形态切入,最高效地将端侧AI能力交付给用户;未来,App可灵活部署于PC、手机、智能设备等任何终端硬件。第二,从第一天起就瞄准全球市场。许多西方国家用户已习惯订阅付费模式,具有较高的确定性。我们选择将精力投入到高确定性的事务上。

36氪:行业对端侧AI最大的误解是什么?

康洪文:很多人认为“下一个Ollama就能做”。但我们实际构建的是一套完整的Memory Layer。第一层是模型,针对多模态理解,我们已自研十余个端侧AI模型,部分基于开源模型后训练,部分为自主研发,实现专业级、多模态理解本身就是巨大的技术挑战。第二层是基础设施,端侧与云端是截然不同的技术体系,从推理框架、算力调度到系统优化,都需要重新设计,以确保多个模型在有限的设备资源下长期稳定协同运行。第三层是记忆构建,模型能理解内容,但不会天然形成记忆。系统不仅需理解每个文件,更要持续建立跨文件、跨时间、跨来源的关联,将孤立数据组织成一个不断生长的个人记忆网络。真正困难的并非单层技术,而是将模型、基础设施和记忆构建长期协同成一套系统,这构成了Memory Layer真正的技术门槛。

36氪:Clipto定义的“记忆”与模型记忆、Context有何区别?

康洪文:目前行业所说的“Memory”主要有两种。一种是模型记忆,本质上是参数中的统计性知识,适用于学习公共知识、用户偏好和行为模式。另一种是Context,它解决的是单次任务中的短期上下文,帮助模型完成当前对话,但生命周期很短。Clipto致力于构建第三种记忆。我们关注的是用户长期积累的真实个人数据,包括视频、音频、图片、文档和会议记录。这些数据并非抽象概念,而是个人真实经历和工作的沉淀。例如,模型可能知道你近期在讨论产品定价,或关注欧美市场,这是统计性的“记忆”。但它永远无法准确回答:“5月18日下午那场融资会议里,John对欧洲定价策略到底说了什么?”因为这些具体、可追溯的事实,不应编码进模型参数,而应作为个人记忆长期保存,并随时供AI精准调用。因此,我们认为模型负责学习公共知识,Memory Layer负责保存个人知识。

36氪:记忆层会被模型厂商所整合吗?

康洪文:我认为不会。我一直认为,未来AI将逐渐形成新的分工。模型负责Intelligence,持续学习和编码公共知识;Memory Layer则负责保存和组织每个人独有的长期记忆。这两者解决的是完全不同的问题。模型的价值源于规模化,服务于所有用户;Memory Layer的价值则在于个性化,它需要持续理解、组织和管理每个人的数据。因此,模型厂商未必天然擅长做Memory Layer,正如Google擅长搜索,但并未天然解决个人记忆问题。我们更相信,未来Agent会不断变化,模型也会不断升级,但Memory Layer将成为长期存在的基础设施。