未来数据库,未来软件:Schema-on-Read + LLM Reasoning
数据库这个行业很长时间都显得“无趣”。大家卷的是性能指标,谁的存储更快,谁的查询更高效。听起来热闹,但其实都是在旧逻辑下的加法。真正意义上的“范式跃迁”,已经很多年没出现了。直到大模型的到来。
最近思考和与专家的交流,让我有这么一个想法:数据库的演化方向正在从 Schema-on-Write,走向 Schema-on-Read + LLM Reasoning。而且更进一步,它正在重新定义“软件开发”本身,也在重写“用户使用软件”的方式。
技术侧+产品侧。
为什么这么说?
回顾历史,数据库的经典范式是 Schema-on-Write:先定义模式,再写入数据。好处是可控、一致性强,坏处是过于僵硬,尤其面对海量非结构化数据(文档、图片、日志),企业要投入巨大成本去清洗和建模。数据仓库的繁琐 ETL,就是这个逻辑的产物。
大模型则打开了新的可能性:
语义检索代替严格结构:你不需要提前建模,文本、图片、视频都可以被索引和查询;
读时动态生成 Schema:Schema 变得“查询驱动”,而不是“写入驱动”;
跨模态推理:LLM 不只是找数据,还能推理,把模糊问题转化为结构化答案。
举个例子,以前你要知道“过去三年里,哪个业务线的新增收入最快”,需要提前在仓库里建好字段、表和关系。现在,LLM 可以直接在原始财报、内部文档、甚至邮件中推理出答案。这就是“语义驱动”正在替代“结构驱动”。
软件开发的本质,就是数据库逻辑
如果把视角再放大:软件开发,本质上就是对数据库的操作。
电商系统 = 商品表、订单表、用户表的读写。
社交网络 = 用户关系表和消息表的查询。
金融系统 = 交易流水的插入与审计。
80% 的应用逻辑,其实都是数据库的 CRUD。
过去我们用代码来写业务逻辑,其实就是在间接描述数据库操作;ORM、API、前端调用,全是这个过程的包装。而大模型的到来,正在打碎这一层包装,让“语义 = 逻辑 = 数据库操作”。
这意味着:
开发者不需要写 SQL,描述意图即可;
用户可以直接定义业务需求,LLM 会自动翻译成数据流;
软件不再是“写死的逻辑”,而是“随需生成的数据库交互”。
换句话说:软件开发正在和数据库演化绑定在一起,二者的未来是一体的。
从开发者到使用者:软件的交互方式正在重写
过去,软件开发者写好逻辑,用户只能按照 UI/功能菜单去操作,受限于开发者预先定义的场景。而在 Schema-on-Read + LLM Reasoning 的范式下,用户的使用方式也会发生根本转变:
用户以自然语言直接交互:不再点选复杂的报表菜单,而是直接问:“给我看过去六个月增长最快的客户群,并预测下季度走势。”
实时生成功能:应用不再提供有限的功能模块,而是根据用户语义需求动态组合数据库逻辑;
个人化/上下文感知:系统会结合用户权限、历史操作习惯和上下文,动态调整输出结果;
用户即“低代码开发者”:普通使用者不再是被动接受功能的人,而是能通过语义接口随时定义自己需要的“功能”。
也就是说,未来的软件应用将不再是“固定产品”,而是一个持续对话、动态生成的服务。
Schema-on-Read + LLM Reasoning
如果说传统数据库定义了数据的存放与约束,那么 LLM 驱动的新数据库定义的将是语义接口与推理方式。这对开发者和使用者来说,是一次双向重写:
开发侧:自然语言即编程语言,应用逻辑实时生成,数据库成为运行时;
使用侧:自然语言即交互方式,应用功能随需生成,用户直接成为“语义驱动的产品经理”。
未来的软件形态,可能就是“数据库 + LLM = 应用”。这是对“软件开发”和“软件使用”的根本性重写。
需要澄清的一点,这并不是说大模型要取代数据库。数据库的存储和事务层依然是不可替代的底座:
数据湖、数据仓库依旧负责高效存储和批处理;
OLTP 系统依旧要保障 ACID 一致性;
但查询与交互层,正在逐步被 LLM 接管。
未来的竞争力,不再是谁的 B+ 树更快,而是谁能让用户更自然、更智能地获得答案。换句话说,数据库将从“索引驱动”转向“语义推理驱动”,而软件的开发与使用方式也将双双转型。
为什么还没见到现象级产品?这是很多人的疑问。我的看法是,现在有几个硬约束:
架构割裂:数据湖、数据仓库、向量数据库各自为战,优化目标不同,很难统一;
推理成本高:调用大模型一次的成本和延迟,远比传统索引大几个数量级;
治理与可解释性不足:企业用户要可追溯、可审计,而 LLM 的黑箱输出很难直接采信。
所以我们看到的多是“拼接式解决方案”:Snowflake/BigQuery + 向量库 + LLM + 一堆 Glue Code。能跑,但不优雅,也很难 scale 到真正的生产级。换句话说,真正的 LLM Native Database 还没有出现。
未来几年,突破口会出现在以下几个点:
存储即原始:不强制预建模,非结构化/半结构化直接存放;
动态 Schema:每次查询时动态生成需要的 Schema;
统一查询引擎:SQL、向量检索、知识图谱、LLM reasoning 能在一个引擎里自动编排;
低成本推理层:通过模型蒸馏、缓存、近端 LLM 等方式压低延迟与成本;
自然语言即开发接口 & 使用接口:不仅开发者用语义定义逻辑,用户也能用语义直接操作应用。
如果这五点被打通,下一个 Snowflake 级别的公司,就可能从这里诞生。大厂因为历史包袱走得慢,初创公司反而可能弯道超车。
目前有些创业者据说的“未来软件 = Agent+数据库”其实就是这个路径的一个尝试;在 SQL 侧上层做 LLM 语义化的应用其实也是这个路径的一个尝试。
总之,数据库的底层价值(存储与一致性)不会消失,但查询范式正在发生根本性改变。在我看来,未来数据库的方向就是:Schema-on-Read + LLM Reasoning。
它不是替代,而是融合。更重要的是,它不仅仅改变数据库,还会重写整个软件的范式。
对开发者:自然语言 = 编程语言;
对使用者:自然语言 = 应用交互。
到最后,软件 = 数据库 + LLM 的语义接口。