Views

148 字,阅读约 1 分钟

未来数据库,未来软件:Schema-on-Read + LLM Reasoning

数据库这个行业很长时间都显得“无趣”。大家卷的是性能指标,谁的存储更快,谁的查询更高效。听起来热闹,但其实都是在旧逻辑下的加法。真正意义上的“范式跃迁”,已经很多年没出现了。直到大模型的到来。

最近思考和与专家的交流,让我有这么一个想法:数据库的演化方向正在从 Schema-on-Write,走向 Schema-on-Read + LLM Reasoning。而且更进一步,它正在重新定义“软件开发”本身,也在重写“用户使用软件”的方式。

技术侧+产品侧。

为什么这么说?

回顾历史,数据库的经典范式是 Schema-on-Write:先定义模式,再写入数据。好处是可控、一致性强,坏处是过于僵硬,尤其面对海量非结构化数据(文档、图片、日志),企业要投入巨大成本去清洗和建模。数据仓库的繁琐 ETL,就是这个逻辑的产物。

大模型则打开了新的可能性:

语义检索代替严格结构:你不需要提前建模,文本、图片、视频都可以被索引和查询;

读时动态生成 Schema:Schema 变得“查询驱动”,而不是“写入驱动”;

跨模态推理:LLM 不只是找数据,还能推理,把模糊问题转化为结构化答案。

举个例子,以前你要知道“过去三年里,哪个业务线的新增收入最快”,需要提前在仓库里建好字段、表和关系。现在,LLM 可以直接在原始财报、内部文档、甚至邮件中推理出答案。这就是“语义驱动”正在替代“结构驱动”。

软件开发的本质,就是数据库逻辑

如果把视角再放大:软件开发,本质上就是对数据库的操作。

电商系统 = 商品表、订单表、用户表的读写。

社交网络 = 用户关系表和消息表的查询。

金融系统 = 交易流水的插入与审计。

80% 的应用逻辑,其实都是数据库的 CRUD。

过去我们用代码来写业务逻辑,其实就是在间接描述数据库操作;ORM、API、前端调用,全是这个过程的包装。而大模型的到来,正在打碎这一层包装,让“语义 = 逻辑 = 数据库操作”。

这意味着:

开发者不需要写 SQL,描述意图即可;

用户可以直接定义业务需求,LLM 会自动翻译成数据流;

软件不再是“写死的逻辑”,而是“随需生成的数据库交互”。

换句话说:软件开发正在和数据库演化绑定在一起,二者的未来是一体的。

从开发者到使用者:软件的交互方式正在重写

过去,软件开发者写好逻辑,用户只能按照 UI/功能菜单去操作,受限于开发者预先定义的场景。而在 Schema-on-Read + LLM Reasoning 的范式下,用户的使用方式也会发生根本转变:

用户以自然语言直接交互:不再点选复杂的报表菜单,而是直接问:“给我看过去六个月增长最快的客户群,并预测下季度走势。”

实时生成功能:应用不再提供有限的功能模块,而是根据用户语义需求动态组合数据库逻辑;

个人化/上下文感知:系统会结合用户权限、历史操作习惯和上下文,动态调整输出结果;

用户即“低代码开发者”:普通使用者不再是被动接受功能的人,而是能通过语义接口随时定义自己需要的“功能”。

也就是说,未来的软件应用将不再是“固定产品”,而是一个持续对话、动态生成的服务。

Schema-on-Read + LLM Reasoning

如果说传统数据库定义了数据的存放与约束,那么 LLM 驱动的新数据库定义的将是语义接口与推理方式。这对开发者和使用者来说,是一次双向重写:

开发侧:自然语言即编程语言,应用逻辑实时生成,数据库成为运行时;

使用侧:自然语言即交互方式,应用功能随需生成,用户直接成为“语义驱动的产品经理”。

未来的软件形态,可能就是“数据库 + LLM = 应用”。这是对“软件开发”和“软件使用”的根本性重写。

需要澄清的一点,这并不是说大模型要取代数据库。数据库的存储和事务层依然是不可替代的底座:

数据湖、数据仓库依旧负责高效存储和批处理;

OLTP 系统依旧要保障 ACID 一致性;

但查询与交互层,正在逐步被 LLM 接管。

未来的竞争力,不再是谁的 B+ 树更快,而是谁能让用户更自然、更智能地获得答案。换句话说,数据库将从“索引驱动”转向“语义推理驱动”,而软件的开发与使用方式也将双双转型。

为什么还没见到现象级产品?这是很多人的疑问。我的看法是,现在有几个硬约束:

架构割裂:数据湖、数据仓库、向量数据库各自为战,优化目标不同,很难统一;

推理成本高:调用大模型一次的成本和延迟,远比传统索引大几个数量级;

治理与可解释性不足:企业用户要可追溯、可审计,而 LLM 的黑箱输出很难直接采信。

所以我们看到的多是“拼接式解决方案”:Snowflake/BigQuery + 向量库 + LLM + 一堆 Glue Code。能跑,但不优雅,也很难 scale 到真正的生产级。换句话说,真正的 LLM Native Database 还没有出现。

未来几年,突破口会出现在以下几个点:

存储即原始:不强制预建模,非结构化/半结构化直接存放;

动态 Schema:每次查询时动态生成需要的 Schema;

统一查询引擎:SQL、向量检索、知识图谱、LLM reasoning 能在一个引擎里自动编排;

低成本推理层:通过模型蒸馏、缓存、近端 LLM 等方式压低延迟与成本;

自然语言即开发接口 & 使用接口:不仅开发者用语义定义逻辑,用户也能用语义直接操作应用。

如果这五点被打通,下一个 Snowflake 级别的公司,就可能从这里诞生。大厂因为历史包袱走得慢,初创公司反而可能弯道超车。

目前有些创业者据说的“未来软件 = Agent+数据库”其实就是这个路径的一个尝试;在 SQL 侧上层做 LLM 语义化的应用其实也是这个路径的一个尝试。

总之,数据库的底层价值(存储与一致性)不会消失,但查询范式正在发生根本性改变。在我看来,未来数据库的方向就是:Schema-on-Read + LLM Reasoning。

它不是替代,而是融合。更重要的是,它不仅仅改变数据库,还会重写整个软件的范式。

对开发者:自然语言 = 编程语言;

对使用者:自然语言 = 应用交互。

到最后,软件 = 数据库 + LLM 的语义接口。

h4cd avatar
h4cd
This human loves sanbu.