吴恩达开新课教OCR

2026-01-17 04:25:11 · chineseheadlinenews.com · 来源: 量子位

你懂OCR吗?2025年之前,可能人人都懂。

但2025年之后,你还认为你真的懂OCR吗?

是的,随着AI大模型研发在架构、记忆、存储等等领域的深水区创新,OCR重新成为了技术专项。DeepSeek在研究、智谱在研究、阿里千问和腾讯混元也都在研究……

那么,怎样才能速成AI时代的OCR呢?

还得是吴恩达老师,火速来了新课程,帮你速通OCR。

在新课程里,直接提出了一个新方案——

智能体文档提取(Agent Doc Extraction)。

不仅是OCR技术在Agent时代的进阶,更是一个统一的智能体工作流。

并且这个方法在DocVQA基准测试中的准确率达到了99.15%。

新课上线,不仅手把手教你跑通本地代码,还给出了在AWS上部署的完整线路~

OCR重新成为技术专项

在介绍ADE之前,先来了解一下各大厂近期在OCR技术上的密集更新。

如果把目光放回到2025,就不难发现,吴恩达老师的这门课也是对这一技术深水区回归的及时呼应。

从10月份开始,DeepSeek让这项技术的讨论爆发。

DeepSeek-OCR玩起“视觉压缩一切”,靠专属视觉编码器把万字长文压成百个视觉token,在10倍压缩下仍能保持97%的高准确率,单块A100-40G显卡每天就能处理20万页以上文档。

几乎同一时间,智谱联合清华大学发布了Glyph框架,异曲同工地通过“文本渲染成图”的思路,把超长文本转成紧凑图像,轻松突破上下文窗口限制。

后续到了12月,智谱GLM-4.6V多模态系列正式发布,包含9B与106B参数版本。

前者在低成本本地OCR场景表现突出,支持复杂扫描、笔记与模糊文档;后者凭借128K上下文窗口甚至能跨页理解长税表、合同与科研图谱,把OCR拉向文档理解与知识抽取层面。

实际上,阿里千问10月发布的Qwen3-VL-30B等版本也在OCR领域有重要升级。

11月底的时候,腾讯混元也加入了这一轮集中突破,1B参数的HunyuanOCR开源后迅速受到关注。

虽然参数少,却具备处理表格、结构化文档、多语种内容的能力,运行速度快,易部署,很快成为开源热门。

Agent文档提取新姿势

机器学习大神吴恩达老师显然也意识到了OCR的大热趋势,火速出了一版速通课。

虽然不是教你怎么改进OCR技术,但教你怎么给OCR装上智能体大脑。

首先,课程详细回顾了OCR技术的演进。

从最早的规则时代到现在的智能体时代,每一步更新都是在填传统OCR的坑。

以前用Tesseract,全靠人工写规则;后来有了PaddleOCR,靠深度学习认字儿。

但它们在提取文字时都会把文档“压平”,导致表格结构、图注关系及阅读顺序等关键信息丢失。

这样一来,下游大模型拿到的就都是半成品数据,特别容易出现幻觉。

而课程里的ADE方案,相当于给OCR加了三大支柱,靠“视觉优先”策略看懂文档布局,用“以数狙酞中心”保证精准,再凭智能体化主动思考。

搭载DPT(文档预训练Transformer)模型后,ADE工作流将文档视为一个整体的视觉对象,去理解其布局和空间关系。

并且,DPT模型在DocVQA基准测试中取得了99.15%的高分,甚至超越人类。

在实战中,ADE也展现出了极强的鲁棒性。

超过1000个单元格的巨型表格、复杂的手写微积分公式,还是带有弯曲印章的证书,甚至是纯图示的安装说明书,它都能精准解析。

在落地层面,ADE引入的视觉接地技术,不仅能提取文字,还为每个数据块分配唯一ID和精确的像素坐标,并能生成局部截图。

这样一来,AI只要一回答某个数据是多少,你一点就能看到原始文件里对应的地方,做到“有图有真相”。

此外,课程还提供了极具实操价值的云端部署指南,教你怎么把这技术用到云端,在AWS上搭个全自动流水线。

把PDF传到S3存储桶,Lambda就会自动进行ADE解析,把结构化的Markdown存好,再让Bedrock知识库建索引,最后靠Strands Agents做成能记事儿、会推理的行业知识助手。

从认清楚像素里的字,到在云端大规模用起来,只能说,这3h的课程,“学不了吃亏,学不了上当”~


    24小时新闻排行榜更多>>
  1. 上海交大校庆微电影文案翻车 急删视频
  2. 探访张雪老家:堂弟曾见他“闭眼装发动机”
  3. 他建议废除"口袋罪",执法者回赠了他一个"口袋"
  4. 冠军战车张雪820RR值得买吗?
  5. BBC:川普再提退出北约,这对同盟前景有何启示
  6. 新港滩惊现大白鲨,冲浪者擦身而过
  7. 川普预告将猛攻伊朗 油价反弹 亚股回吐涨幅
  8. 香港城市大学(东莞)项目二期正式开工
  9. 胡春华广东旧部蔡家华被查
  10. 北京游客5天刷证15次 民叹犹如戴电子镣铐
  11. 中国游客被全球各种嫌弃
  12. 中共出境管控延伸民间 护照申领需五级政审
  13. 留子文学——当代留子的大型自我感动现场
  14. 中国公安部展开“猎狐”专项行动 整顿“裸官”问题
  15. 中国试图在伊朗战争中扮演和平调解者,这会奏效吗
  16. 金价急跌,刚涨价的老铺黄金尴尬了
  17. 美军电子攻击机首参战 成打击伊朗新利器
  18. 宏福苑听证会进入第7日 有7名证人作供
  19. 谷歌再发“技术澄清”,砸崩全球存储股的论文陷争议
  20. 李亚鹏又创业了
  21. 甲骨文裁员3万,印度冲击最大
  22. 社交如何改变大脑,并让你感觉更好
  23. 【百年真相】从中纪委空降地方的亿元大贪官
  24. 女子遭游民割脖子,路过医助压颈抢救
  25. 《求是》两度刊文“稳预期”,楼市政策如何落地?
  26. 川普为何积极推动美国“重返月球”
  27. 阿尔忒弥斯2号启航,人类重返月球
  28. 美国一名男子涉嫌威胁杀害川普被逮捕
  29. 优思益风波愈演愈烈,多位明星网红卷入其中
  30. 光纤涨价潮已蔓延至全球范围
  31. 酒企都在焦虑一个事:为何年轻人不爱喝酒了
  32. 太空智算网研讨会聚焦空天算力新图景
  33. “解放日”一周年:美国付出怎样的代价?
  34. 2026世界杯:川普阴影与高昂的旅行代价
  35. 市议会拟扩大“公平票价”优惠
  36. 科研团队发现一濒危植物新种
  37. 川普爆威胁"断乌克兰军援",逼北约助打通荷莫兹
  38. 日政府筹划赴俄,原油采购或成议题
  39. 中国经济萧条下的民生:就业难和不消费
  40. 阿根廷命令伊朗外交官48小时内离境
  41. 英召集约40国开会
  42. 船漏水了,鲁比奥还忙着刷漆
  43. 中巴突推和平倡议 专家析中共多重政治盘算
  44. 伊朗革命卫队受重创 特种部队高级指挥官阵亡
  45. 消息:中国民营炼油企业被要求维持产量
  46. 新疆吐鲁番市托克逊县发生4.7级地震
  47. 纽约时报:不要让年轻人为老年人的战争送命
  48. 被封七天,我一个纯徒步的公众号,怎么踩中雷点的?
  49. 辽宁省科学技术奖受理项目公示
  50. 切换夏令时到底对健康有什么影响?
  51. 新西兰与库克群岛签安全新约 阻中共扩张
  52. 儿童创客市集12日东湾布伦坞登场
  53. 川普警告要退出北约 秘书长吕特下周访美
  54. 湖北一岁男孩输液后身体剧烈抽搐 不幸去世
  55. 习邀郑丽文访北京 遭讽自挖大坑
  56. 川普祭新药品关税并重整金属税
  57. 两华人被告认罪 承认针对美加老年受害者跨国诈骗
  58. 30余国商讨海峡通航,不包括美国
  59. 伊朗:敢发动地面战绝不留活口
  60. 苦禅鹰图,举世无双