前OpenAI工程师掀起网页革命:HTML死了
2026-04-23 20:25:37 · chineseheadlinenews.com · 来源: 51CTO技术栈
想象一下:你打开浏览器,没有代码、没有 HTML、没有 CSS 布局引擎。屏幕上每一帧画面,都是 AI 模型实时生成的像素视频流。
它能瞬间理解你的意图,动态重塑整个界面——从巴黎旅行规划到复杂数据可视化,全是手绘级插图般生动,还能随点击无缝变形、交互。
满满的科幻降临既视感!
这就是 Zain Shah(前 OpenAI、YC 校友)和团队刚刚发布的 Flipbook 原型。

体验地址:flipbook.page
短短一天,X 平台爆火两百百万浏览。网友们已经玩疯了!手机上也能玩。

如果你开启 live video stream 模式,体感会更震撼~
Zain 放出了优化后的 LTX Studio 视频模型实现的真实演示:1080p 24fps 实时流式传输,背后是 Modal GPU 服务器。
传统 Web 开发范式被彻底击穿:
无需前端布局、上网像翻书一样
现在的网页阅读,“是由僵硬的代码和规则生成的,这使得传达复杂而详尽的想法变得困难。”
而 Flipbook 摒弃了这一点,它的理念是:一图胜千言。你落到的每一个“页面”都是一张图像。
奇妙之处在于,点击图像中的任何一个角落,你都会得到一张新的图像,可以继续对该事物进行更深入的探索。
你所看到的内容都不包含任何 HTML、代码、特定的链接或字段。整个网络仅仅是显示在你屏幕上的生成像素,甚至连文字也都是图片中的像素构成。
真正的翻书页一样的体验。

过去 20 年,我们依赖 HTML + CSS + JavaScript + React 等构建界面。现在,Flipbook 把一切简化为“像素流”:模型直接决定你看到什么、怎么交互。
??无需布局引擎:插图随窗口自适应变形,不再被 CSS 框死。
??全屏互动:任何像素都能响应点击,模型实时判断意图,不再局限于预定义按钮。
??视觉优先:复杂概念用插图、动画、真实渲染表达,而不是枯燥文字和矩形框。
转给我的一个信号就是:前端工程师的“写代码搭界面”时代可能走向终结。
AI原生浏览,真的无敌
小编立刻去体验来一把,的确有一种“无限探索式阅读”的感觉。
例如:今天Qwen3.6-27B 模型发布了,之前总要仔细看下各项基准评分的对比,现在我直接交给 Flipbook 帮我解读了。
我点击了业界现在非常关注的“SWE-bench Verified”,片刻后,它就像一个放大镜工具一样,帮我生成了更为具体对比数字和分析。
我继续点击强相关的 Agentic Flow,它就给出了可视觉化的Loop图。

这种自带强烈探索感的交互方式前所未有。
如果你想返回上个页面怎么办,导航栏里已经帮你做好了路径记忆,只需要回溯点击即可。

别小看这个小堡具,外界对此视为一个行业地震信号。
除了解读复杂的图表,我还发现了别的妙用:解读现实人物微表情。
解读明星的表情特质。本着不浪费的原则,我把“沈腾时代周刊封面”喂给了 Flipbook。这表情,从眉毛、眼睛到鼻子、嘴,就连酒窝也被解读的明明白白的。
得,沈腾这张脸,太权威了。

其实还有很多奇怪的用途,只有你想不到,没有 Flipbook 做不到的。
让它帮小学生做作业,抽象的数学题全都被“可视化”了,这不就很容易解提了吗?
总之,所有抽象的东西到这里都变得形象、容易感知了起来!

不止这些,想象空间很大,但凡是图片都能给它解读。
直播中不认识嘉宾是谁,可以找它(ps:现在能力还不够强,只能识别出知名度高的人物,容易翻车),

更绝的来了!
没有图片,怎么办?你可以直接在url输入prompt。比如小编,帮我做一张樱木花道观澜动作的拆解图!

而且,别忘了,其实上面的每一帧画面都有更高阶的“实时视频流”的版本,只怪小编的网速不够,不然可以可以直接樱木花道灌篮的慢动作了。

可想而知,未来的产品原型也将从“画 Wireframe”变成“直接 prompt 生成可交互视频界面”。

而低代码/无代码,也将进化成“零代码 AI 原生界面”。
无限视觉的AI原生浏览器:
AI视频模型的实时化突破
Zain 在 X 上特别提到了实时视频的进化技术:优化版的 LTXStudio 视频模型。
“为了让这些图片栩栩如生地活过来,为了让这些图像栩栩如生,我们对 @LTXStudio 的视频模型进行了大幅优化。它能直接以 24fps 的速度向用户的屏幕流式传输 1080p 视频,通过 WebSocket 直接连接到 @modal_labs 的无服务器 GPU 基础设施。”

现在看起来,这个 Flipbook 既像 AI 原生浏览器,又像 AI 原生播放器。背后而且交互起来毫无磕绊感,这跟一般的视频生成大不相同,怎么实现的呢?
其实,Flipbook 背后的核心技术,则是 Lightricks (一家专攻 AI-first 创意的科以色列科技公司)的 LTX-2/LTX-2.3 系列开源 DiT 模型。它可以实现高压缩 latent space、多尺度渲染、同步音视频,速度快于实时(H100 上几秒生成数秒视频),支持 native 4K/1080p portrait。
有了它,生成的视频,就具备了实时、状态感知、交互式生成。结合 agentic search,模型还能拉取实时数据,确保准确性。
下一步野望:结构化UI编程
如此高燃的产品体验,下一步会怎样放大呢?
Zain 坦承 Flipbook 还很有限,所以团队目前选择围绕视觉解释来设计它。
但其实他们的野心更大:随着模型变得更准确和更有状态,这种方式值得做的事情集合将会扩展。甚至那些你认为需要结构化 UI 的,比如编程。

正如刚才提到的,这项技术可以颠覆我们现有的几乎所有工作流,速度也会十倍提升:
UI/UX 设计:从静态 mockup 到动态视频原型,迭代速度提升 10 倍+。设计师 prompt 一下,就能测试完整用户旅程。
内容创作与教育:旅行规划、教程、数据故事,全变成沉浸式视觉叙事。教育界可能迎来“AI 动态教科书”。
电商/产品演示:商品页面不再是图片+文字,而是实时生成的 3D-like 交互场景,根据用户偏好个性化变形。
游戏与 AR/VR:实时生成 cutscenes、界面,为轻量级 AI 驱动体验铺路。
这还没完,当前的产品体验还受制于模型能力的上限。如果模型发展到足够稳的状态,整个软件界面都可能变成“生成式”。
到那时,浏览器还在,但里面跑的不再是网页,而是 AI 驱动的“无限视觉浏览器”。
Flipbook的背后:
两个字:烧钱,但未来很值得
But,如此前瞻的技术体验,想要继续 Scaling 普及到每一个人,还是有不小的难度的。
主要还是算力成本问题。大家都知道,传统网页客户端渲染几乎免费,然而,Flipbook 需要服务器端持续 GPU 推理。带宽和成本的瓶颈(视频流 vs 文本流的 50-150x 差距)需要解决。
但这块问题并非无解。如果按照黄仁勋、a16z等业内人士或机构的说法,推理算力的成本每年都会下降至原来的20%,甚至10%,此外开源模型的本地化(FP8 量化)节奏也在加速。预计 5-10 年内,经济性方面的问题就会打下来。
此外,Lightricks 等公司正推动开源 + 企业版,Modal 等基础设施已 ready。谁先解决 scaling,谁就吃到最大红利。
更大的一个信号是:互联网计算范式从“客户端主导”转向“云端 AI 生成主导”。那么,我们现在所有的技术栈:云计算、边缘计算、浏览器架构都会被重塑,甚至会催生新“AI OS”。
背后团队
小编也扒了一下 Flipbook 背后的团队背景。
Flipbook 背后的团队,其实是一个小型、跨界协作的“创意技术”小组,而不是传统意义上的正式公司团队。
某种程度上,它甚至可以说是一个side project,是由一群热情的 maker 和技术极客在社区实验室环境中快速拼凑而成的。
其中的核心人物:Zain Shah,是主导者和发起人。Zain 的履历包括:三星的创意技术专家,他负责三星未来设备、穿戴设备、AI 助手等原型开发。再之前则是 OpenAI 研究员,当然了他还是YC S13 校友(曾创办 Watchsend)、Opendoor 数据科学/工程经验。
总之,Zain 非常擅长将 AI 与交互界面、硬件原型结合。
此外,值得一提的是,他还共同创立了 MadSci ,旧金山中心的一个非营利社区 makerspace 和实验室。Flipbook 的很多灵感和实际开发很可能发生在这里。
另外,他在个人网站上提到 Flipbook 时,用了 “It took a village”(这需要整个村庄/集体努力),显示这是一个协作成果,而非他一人完成。

Zain 在 Flipbook 发布帖子中也特别感谢以下几位:
旧金山创业者社区 South Park Commons 成员,曾任职 Humane、Slack、Brown 的 Eddie Jiao,没错,又是东方面孔!

另一位核心成员则是曾任职苹果的Drew O'Carr。

从这几位的履历不难看出,三位都有一个共性,都是探索“AI时代界面形态”的实验型构建者。
AI原生交互时代爆发前夜
从2023年开始,业界就已经开始喧喧嚷嚷地讨论起“AI原生产品”的话题。
大家对于生成式AI时代,产品到底该长什么样子,做出了不少探索。
从在传统互联网产品中添加“Chat框”,再到 ClaudCode 式的纯CLI,前者已经被称为鸡肋,后者则很难在非程序员群体中快速推广。
但 Flipbook 似乎有希望做到!
从写 CSS 转向 prompt engineering、从在 URL中写一句提示,就让想得到的信息在上一帧像素之间流动重组。
图片即一切的可交互体验,配合 prompt 的生成魔法,可以说触碰到了“AI原生浏览器”的定义点。
可以预见,我们未来的一切交互,不管是工作中的营销设计、编程、写PPT、写原型设计,还是平时生活中旅游出行、教娃写作业、搜明星热搜,这些体验都有可能迎来全新的“视觉化”重塑。
写在最后:HTML 离退隐不远了
当然,正如前文所说,Flipbook 目前还是原型阶段,主要用于“视觉化解释”,实际速度还有优化空间。
但它清晰指向未来:当 AI 模型够快、够聪明,界面将像现实世界一样丰富、即时、个性化。
可以想象,我们的网站终将革掉“填色块的网页”的形态,化身成“为每一个人量身生成的视觉宇宙”。
总之,HTML 距离退隐江湖,已经不远了!
可以肯定的是,这波 AI 界面革命,才刚刚开始。