前OpenAI工程师掀起网页革命：HTML死了-墙外头条

想象一下：你打开浏览器，没有代码、没有 HTML、没有 CSS 布局引擎。屏幕上每一帧画面，都是 AI 模型实时生成的像素视频流。

它能瞬间理解你的意图，动态重塑整个界面——从巴黎旅行规划到复杂数据可视化，全是手绘级插图般生动，还能随点击无缝变形、交互。

满满的科幻降临既视感！

这就是 Zain Shah（前 OpenAI、YC 校友）和团队刚刚发布的 Flipbook 原型。

体验地址：flipbook.page

短短一天，X 平台爆火两百百万浏览。网友们已经玩疯了！手机上也能玩。

如果你开启 live video stream 模式，体感会更震撼~

Zain 放出了优化后的 LTX Studio 视频模型实现的真实演示：1080p 24fps 实时流式传输，背后是 Modal GPU 服务器。

传统 Web 开发范式被彻底击穿：

无需前端布局、上网像翻书一样

现在的网页阅读，“是由僵硬的代码和规则生成的，这使得传达复杂而详尽的想法变得困难。”

而 Flipbook 摒弃了这一点，它的理念是：一图胜千言。你落到的每一个“页面”都是一张图像。

奇妙之处在于，点击图像中的任何一个角落，你都会得到一张新的图像，可以继续对该事物进行更深入的探索。

你所看到的内容都不包含任何 HTML、代码、特定的链接或字段。整个网络仅仅是显示在你屏幕上的生成像素，甚至连文字也都是图片中的像素构成。

真正的翻书页一样的体验。

过去 20 年，我们依赖 HTML + CSS + JavaScript + React 等构建界面。现在，Flipbook 把一切简化为“像素流”：模型直接决定你看到什么、怎么交互。

??无需布局引擎：插图随窗口自适应变形，不再被 CSS 框死。

??全屏互动：任何像素都能响应点击，模型实时判断意图，不再局限于预定义按钮。

??视觉优先：复杂概念用插图、动画、真实渲染表达，而不是枯燥文字和矩形框。

转给我的一个信号就是：前端工程师的“写代码搭界面”时代可能走向终结。

AI原生浏览，真的无敌

小编立刻去体验来一把，的确有一种“无限探索式阅读”的感觉。

例如：今天Qwen3.6-27B 模型发布了，之前总要仔细看下各项基准评分的对比，现在我直接交给 Flipbook 帮我解读了。

我点击了业界现在非常关注的“SWE-bench Verified”，片刻后，它就像一个放大镜工具一样，帮我生成了更为具体对比数字和分析。

我继续点击强相关的 Agentic Flow，它就给出了可视觉化的Loop图。

这种自带强烈探索感的交互方式前所未有。

如果你想返回上个页面怎么办，导航栏里已经帮你做好了路径记忆，只需要回溯点击即可。

别小看这个小堡具，外界对此视为一个行业地震信号。

除了解读复杂的图表，我还发现了别的妙用：解读现实人物微表情。

解读明星的表情特质。本着不浪费的原则，我把“沈腾时代周刊封面”喂给了 Flipbook。这表情，从眉毛、眼睛到鼻子、嘴，就连酒窝也被解读的明明白白的。

得，沈腾这张脸，太权威了。

其实还有很多奇怪的用途，只有你想不到，没有 Flipbook 做不到的。

让它帮小学生做作业，抽象的数学题全都被“可视化”了，这不就很容易解提了吗？

总之，所有抽象的东西到这里都变得形象、容易感知了起来！

不止这些，想象空间很大，但凡是图片都能给它解读。

直播中不认识嘉宾是谁，可以找它（ps：现在能力还不够强，只能识别出知名度高的人物，容易翻车），

更绝的来了！

没有图片，怎么办？你可以直接在url输入prompt。比如小编，帮我做一张樱木花道观澜动作的拆解图！

而且，别忘了，其实上面的每一帧画面都有更高阶的“实时视频流”的版本，只怪小编的网速不够，不然可以可以直接樱木花道灌篮的慢动作了。

可想而知，未来的产品原型也将从“画 Wireframe”变成“直接 prompt 生成可交互视频界面”。

而低代码/无代码，也将进化成“零代码 AI 原生界面”。

无限视觉的AI原生浏览器：

AI视频模型的实时化突破

Zain 在 X 上特别提到了实时视频的进化技术：优化版的 LTXStudio 视频模型。

“为了让这些图片栩栩如生地活过来，为了让这些图像栩栩如生，我们对 @LTXStudio 的视频模型进行了大幅优化。它能直接以 24fps 的速度向用户的屏幕流式传输 1080p 视频，通过 WebSocket 直接连接到 @modal_labs 的无服务器 GPU 基础设施。”

现在看起来，这个 Flipbook 既像 AI 原生浏览器，又像 AI 原生播放器。背后而且交互起来毫无磕绊感，这跟一般的视频生成大不相同，怎么实现的呢？

其实，Flipbook 背后的核心技术，则是 Lightricks （一家专攻 AI-first 创意的科以色列科技公司）的 LTX-2/LTX-2.3 系列开源 DiT 模型。它可以实现高压缩 latent space、多尺度渲染、同步音视频，速度快于实时（H100 上几秒生成数秒视频），支持 native 4K/1080p portrait。

有了它，生成的视频，就具备了实时、状态感知、交互式生成。结合 agentic search，模型还能拉取实时数据，确保准确性。

下一步野望：结构化UI编程

如此高燃的产品体验，下一步会怎样放大呢？

Zain 坦承 Flipbook 还很有限，所以团队目前选择围绕视觉解释来设计它。

但其实他们的野心更大：随着模型变得更准确和更有状态，这种方式值得做的事情集合将会扩展。甚至那些你认为需要结构化 UI 的，比如编程。

正如刚才提到的，这项技术可以颠覆我们现有的几乎所有工作流，速度也会十倍提升：

UI/UX 设计：从静态 mockup 到动态视频原型，迭代速度提升 10 倍+。设计师 prompt 一下，就能测试完整用户旅程。

内容创作与教育：旅行规划、教程、数据故事，全变成沉浸式视觉叙事。教育界可能迎来“AI 动态教科书”。

电商/产品演示：商品页面不再是图片+文字，而是实时生成的 3D-like 交互场景，根据用户偏好个性化变形。

游戏与 AR/VR：实时生成 cutscenes、界面，为轻量级 AI 驱动体验铺路。

这还没完，当前的产品体验还受制于模型能力的上限。如果模型发展到足够稳的状态，整个软件界面都可能变成“生成式”。

到那时，浏览器还在，但里面跑的不再是网页，而是 AI 驱动的“无限视觉浏览器”。

Flipbook的背后：

两个字：烧钱，但未来很值得

But，如此前瞻的技术体验，想要继续 Scaling 普及到每一个人，还是有不小的难度的。

主要还是算力成本问题。大家都知道，传统网页客户端渲染几乎免费，然而，Flipbook 需要服务器端持续 GPU 推理。带宽和成本的瓶颈（视频流 vs 文本流的 50-150x 差距）需要解决。

但这块问题并非无解。如果按照黄仁勋、a16z等业内人士或机构的说法，推理算力的成本每年都会下降至原来的20%，甚至10%，此外开源模型的本地化（FP8 量化）节奏也在加速。预计 5-10 年内，经济性方面的问题就会打下来。

此外，Lightricks 等公司正推动开源 + 企业版，Modal 等基础设施已 ready。谁先解决 scaling，谁就吃到最大红利。

更大的一个信号是：互联网计算范式从“客户端主导”转向“云端 AI 生成主导”。那么，我们现在所有的技术栈：云计算、边缘计算、浏览器架构都会被重塑，甚至会催生新“AI OS”。

背后团队

小编也扒了一下 Flipbook 背后的团队背景。

Flipbook 背后的团队，其实是一个小型、跨界协作的“创意技术”小组，而不是传统意义上的正式公司团队。

某种程度上，它甚至可以说是一个side project，是由一群热情的 maker 和技术极客在社区实验室环境中快速拼凑而成的。

其中的核心人物：Zain Shah，是主导者和发起人。Zain 的履历包括：三星的创意技术专家，他负责三星未来设备、穿戴设备、AI 助手等原型开发。再之前则是 OpenAI 研究员，当然了他还是YC S13 校友（曾创办 Watchsend）、Opendoor 数据科学/工程经验。

总之，Zain 非常擅长将 AI 与交互界面、硬件原型结合。

此外，值得一提的是，他还共同创立了 MadSci ，旧金山中心的一个非营利社区 makerspace 和实验室。Flipbook 的很多灵感和实际开发很可能发生在这里。

另外，他在个人网站上提到 Flipbook 时，用了 “It took a village”（这需要整个村庄/集体努力），显示这是一个协作成果，而非他一人完成。

Zain 在 Flipbook 发布帖子中也特别感谢以下几位：

旧金山创业者社区 South Park Commons 成员，曾任职 Humane、Slack、Brown 的 Eddie Jiao，没错，又是东方面孔！

另一位核心成员则是曾任职苹果的Drew O'Carr。

从这几位的履历不难看出，三位都有一个共性，都是探索“AI时代界面形态”的实验型构建者。

AI原生交互时代爆发前夜

从2023年开始，业界就已经开始喧喧嚷嚷地讨论起“AI原生产品”的话题。

大家对于生成式AI时代，产品到底该长什么样子，做出了不少探索。

从在传统互联网产品中添加“Chat框”，再到 ClaudCode 式的纯CLI，前者已经被称为鸡肋，后者则很难在非程序员群体中快速推广。

但 Flipbook 似乎有希望做到！

从写 CSS 转向 prompt engineering、从在 URL中写一句提示，就让想得到的信息在上一帧像素之间流动重组。

图片即一切的可交互体验，配合 prompt 的生成魔法，可以说触碰到了“AI原生浏览器”的定义点。

可以预见，我们未来的一切交互，不管是工作中的营销设计、编程、写PPT、写原型设计，还是平时生活中旅游出行、教娃写作业、搜明星热搜，这些体验都有可能迎来全新的“视觉化”重塑。

写在最后：HTML 离退隐不远了

当然，正如前文所说，Flipbook 目前还是原型阶段，主要用于“视觉化解释”，实际速度还有优化空间。

但它清晰指向未来：当 AI 模型够快、够聪明，界面将像现实世界一样丰富、即时、个性化。

可以想象，我们的网站终将革掉“填色块的网页”的形态，化身成“为每一个人量身生成的视觉宇宙”。

总之，HTML 距离退隐江湖，已经不远了！

可以肯定的是，这波 AI 界面革命，才刚刚开始。