August 18, 2025 Categories: 行业, 产品, 观点

未来数据库，未来软件：Schema-on-Read + LLM Reasoning

数据库这个行业很长时间都显得“无趣”。大家卷的是性能指标，谁的存储更快，谁的查询更高效。听起来热闹，但其实都是在旧逻辑下的加法。真正意义上的“范式跃迁”，已经很多年没出现了。直到大模型的到来。

最近思考和与专家的交流，让我有这么一个想法：数据库的演化方向正在从 Schema-on-Write，走向 Schema-on-Read + LLM Reasoning。而且更进一步，它正在重新定义“软件开发”本身，也在重写“用户使用软件”的方式。

技术侧+产品侧。

为什么这么说？

回顾历史，数据库的经典范式是 Schema-on-Write：先定义模式，再写入数据。好处是可控、一致性强，坏处是过于僵硬，尤其面对海量非结构化数据（文档、图片、日志），企业要投入巨大成本去清洗和建模。数据仓库的繁琐 ETL，就是这个逻辑的产物。

大模型则打开了新的可能性：

语义检索代替严格结构：你不需要提前建模，文本、图片、视频都可以被索引和查询；

读时动态生成 Schema：Schema 变得“查询驱动”，而不是“写入驱动”；

跨模态推理：LLM 不只是找数据，还能推理，把模糊问题转化为结构化答案。

举个例子，以前你要知道“过去三年里，哪个业务线的新增收入最快”，需要提前在仓库里建好字段、表和关系。现在，LLM 可以直接在原始财报、内部文档、甚至邮件中推理出答案。这就是“语义驱动”正在替代“结构驱动”。

软件开发的本质，就是数据库逻辑

如果把视角再放大：软件开发，本质上就是对数据库的操作。

电商系统 = 商品表、订单表、用户表的读写。

社交网络 = 用户关系表和消息表的查询。

金融系统 = 交易流水的插入与审计。

80% 的应用逻辑，其实都是数据库的 CRUD。

过去我们用代码来写业务逻辑，其实就是在间接描述数据库操作；ORM、API、前端调用，全是这个过程的包装。而大模型的到来，正在打碎这一层包装，让“语义 = 逻辑 = 数据库操作”。

这意味着：

开发者不需要写 SQL，描述意图即可；

用户可以直接定义业务需求，LLM 会自动翻译成数据流；

软件不再是“写死的逻辑”，而是“随需生成的数据库交互”。

换句话说：软件开发正在和数据库演化绑定在一起，二者的未来是一体的。

从开发者到使用者：软件的交互方式正在重写

过去，软件开发者写好逻辑，用户只能按照 UI/功能菜单去操作，受限于开发者预先定义的场景。而在 Schema-on-Read + LLM Reasoning 的范式下，用户的使用方式也会发生根本转变：

用户以自然语言直接交互：不再点选复杂的报表菜单，而是直接问：“给我看过去六个月增长最快的客户群，并预测下季度走势。”

实时生成功能：应用不再提供有限的功能模块，而是根据用户语义需求动态组合数据库逻辑；

个人化/上下文感知：系统会结合用户权限、历史操作习惯和上下文，动态调整输出结果；

用户即“低代码开发者”：普通使用者不再是被动接受功能的人，而是能通过语义接口随时定义自己需要的“功能”。

也就是说，未来的软件应用将不再是“固定产品”，而是一个持续对话、动态生成的服务。

Schema-on-Read + LLM Reasoning

如果说传统数据库定义了数据的存放与约束，那么 LLM 驱动的新数据库定义的将是语义接口与推理方式。这对开发者和使用者来说，是一次双向重写：

开发侧：自然语言即编程语言，应用逻辑实时生成，数据库成为运行时；

使用侧：自然语言即交互方式，应用功能随需生成，用户直接成为“语义驱动的产品经理”。

未来的软件形态，可能就是“数据库 + LLM = 应用”。这是对“软件开发”和“软件使用”的根本性重写。

需要澄清的一点，这并不是说大模型要取代数据库。数据库的存储和事务层依然是不可替代的底座：

数据湖、数据仓库依旧负责高效存储和批处理；

OLTP 系统依旧要保障 ACID 一致性；

但查询与交互层，正在逐步被 LLM 接管。

未来的竞争力，不再是谁的 B+ 树更快，而是谁能让用户更自然、更智能地获得答案。换句话说，数据库将从“索引驱动”转向“语义推理驱动”，而软件的开发与使用方式也将双双转型。

为什么还没见到现象级产品？这是很多人的疑问。我的看法是，现在有几个硬约束：

架构割裂：数据湖、数据仓库、向量数据库各自为战，优化目标不同，很难统一；

推理成本高：调用大模型一次的成本和延迟，远比传统索引大几个数量级；

治理与可解释性不足：企业用户要可追溯、可审计，而 LLM 的黑箱输出很难直接采信。

所以我们看到的多是“拼接式解决方案”：Snowflake/BigQuery + 向量库 + LLM + 一堆 Glue Code。能跑，但不优雅，也很难 scale 到真正的生产级。换句话说，真正的 LLM Native Database 还没有出现。

未来几年，突破口会出现在以下几个点：

存储即原始：不强制预建模，非结构化/半结构化直接存放；

动态 Schema：每次查询时动态生成需要的 Schema；

统一查询引擎：SQL、向量检索、知识图谱、LLM reasoning 能在一个引擎里自动编排；

低成本推理层：通过模型蒸馏、缓存、近端 LLM 等方式压低延迟与成本；

自然语言即开发接口 & 使用接口：不仅开发者用语义定义逻辑，用户也能用语义直接操作应用。

如果这五点被打通，下一个 Snowflake 级别的公司，就可能从这里诞生。大厂因为历史包袱走得慢，初创公司反而可能弯道超车。

目前有些创业者据说的“未来软件 = Agent+数据库”其实就是这个路径的一个尝试；在 SQL 侧上层做 LLM 语义化的应用其实也是这个路径的一个尝试。

总之，数据库的底层价值（存储与一致性）不会消失，但查询范式正在发生根本性改变。在我看来，未来数据库的方向就是：Schema-on-Read + LLM Reasoning。

它不是替代，而是融合。更重要的是，它不仅仅改变数据库，还会重写整个软件的范式。

对开发者：自然语言 = 编程语言；

对使用者：自然语言 = 应用交互。

到最后，软件 = 数据库 + LLM 的语义接口。

未来数据库，未来软件：Schema-on-Read + LLM Reasoning

Related