使用生成式 AI 增强亚马逊云科技智能文档处理

数据分类、提取和分析对于处理大量文档的组织来说可能具有挑战性。传统的文档处理解决方案是手动的、昂贵的、容易出错的,并且难以扩展。利用 Amazon Textract 等 AI 服务,亚马逊云科技智能文档处理(IDP)允许您利用业界领先的机器学习(ML)技术来快速准确地处理任何扫描文档或图像中的数据。生成式人工智能(生成式AI)补充了 Amazon Textract, 以进一步自动化文档处理工作流程。诸如标准化关键字段和汇总输入数据等功能支持更快地管理文档流程工作流程,同时减少错误的可能性。

亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、活动与竞赛等。帮助中国开发者对接世界最前沿技术,观点,和项目,并将中国优秀开发者或技术推荐给全球云社区。如果你还没有关注/收藏,看到这里请一定不要匆匆划过,点这里让它成为你的技术宝库!

生成式 AI 由称为基础模型(FMs)的大型 ML 模型驱动。FMs 正在改变您可以解决传统上复杂文档处理工作负载的方式。除了现有的功能之外,企业需要汇总来自诸如财务报告和银行对账单等文档的特定类别的信息。FMs 使从提取的数据中生成此类见解变得更加容易。为了优化人工审核所花费的时间并提高员工的工作效率,可以以自动化的方式标记诸如电话号码中缺少数字,缺少文档或地址中缺少门牌号等错误。在当前场景中,您需要投入资源通过人工审核和复杂的脚本来完成这些任务。这种方法既乏味又昂贵。FMs 可以帮助以更快的速度、更少的资源完成这些任务,并将不同的输入格式转换为可以进一步处理的标准模板。在亚马逊云科技,我们提供诸如 Amazon Bedrock 等服务,这是使用FMs构建和扩展生成式 AI 应用程序的最简单方法。 Amazon Bedrock 是一个完全托管的服务,通过 API 提供来自领先的 AI 创业公司和 Amazon FMs,以便您可以找到最适合您要求的模型。 我们还提供 Amazon SageMaker JumpStart,它允许 ML 从业人员从广泛的开源FMs中进行选择。 ML 从业人员可以将FMs部署到专用 Amazon SageMaker 实例中从一个网络隔离的环境中,并使用SageMaker 定制模型进行模型训练和部署。

Ricoh 提供旨在帮助客户管理和优化业务信息流的工作场所解决方案和数字化转型服务。产品组合解决方案开发副总裁 Ashok Shenoy 说:“我们正在将生成式 AI 添加到我们的 IDP 解决方案中,以帮助客户利用诸如问答、汇总和标准化输出等新功能更快、更准确地完成工作。 亚马逊云科技允许我们在保持每个客户的数据分离和安全的同时利用生成式AI。”

在本文中,我们将分享如何使用生成式 AI 增强亚马逊云科技上的 IDP 解决方案。

改进 IDP 流程

在本节中,我们将回顾如何通过 FMs 增强传统的 IDP 流程,并通过 Amazon Textract 与 FMs 的示例用例进行演练。

Amazon IDP 由三个阶段组成:分类、提取和扩充。有关每个阶段的更多详细信息,请参阅使用亚马逊云科技 AI 服务进行智能文档处理:第1部分和第2部分。在分类阶段,FMs 现在可以在没有任何额外训练的情况下对文档进行分类。这意味着即使模型之前没有见过类似的示例,也可以对文档进行分类。提取阶段的FMs可以标准化日期字段、验证地址和电话号码,同时确保一致的格式。丰富阶段的 FMs 允许推理、逻辑推理和总结。当您在每个 IDP 阶段使用 FMs 时,您的工作流程将更加流畅,性能也会得到改进。下图说明了具有生成式AI 的 IDP 流程。

9-1.How-to-get-started.png

IDP 流程的提取阶段

当 FMs 无法直接以原生格式(如 PDF、img、jpeg 和 tiff)作为输入来处理文档时,需要一种机制将文档转换为文本。为了从文档中提取文本然后将其发送到 FMs 进行进一步处理,您可以使用 Amazon Textract。使用 Amazon Textract,您可以提取行和单词,并将它们传递给下游的 FMs。以下架构使用 Amazon Textract 从任何类型的文档中准确提取文本,然后将其发送到FMs进行进一步处理。

9-2.textract-and-FM.png

通常,文档包含结构化和半结构化信息。Amazon Textract 可用于从表格和表单中提取原始文本和数据。表格和表单中的数据关系在自动化业务过程方面发挥着至关重要的作用。某些类型的信息可能无法由 FMs 直接处理。因此,我们可以选择将此信息存储在下游存储中或将其发送到 FMs。下图是一个例子,展示了 Amazon Textract 如何从文档中提取结构化和半结构化信息,以及需要由 FMs 处理的文本行。

9-3.ML-14527-input-putput-image.png

使用亚马逊云科技无服务器服务利用 FMs 进行总结

我们前面演示的 IDP 流程可以使用亚马逊云科技无服务器服务无缝自动化。大型企业中存在高度非结构化的文档。这些文档可能跨越从银行业的证券交易委员会(SEC)文件到医疗保险行业的保障文件等多个行业。随着亚马逊云科技上生成式 AI 的发展,这些行业的人们正在寻找以自动化和经济高效的方式从这些文档中获取摘要的方法。无服务器服务提供了一种快速构建 IDP 解决方案的机制。诸如 Amazon Lambda、Amazon Step Functions 和 Amazon EventBridge 等服务可以帮助构建与 FMs 集成的文档处理流程,如下图所示。

9-4.serverless-services.jpg

上述架构中使用的示例应用程序是事件驱动的。事件被定义为最近发生的状态变化。例如,当对象被上传到 Amazon Simple Storage Service (Amazon S3) 存储桶时,Amazon S3 会发出对象创建事件。来自 Amazon S3 的此事件通知可以触发 Lambda 函数或 Step Functions 工作流程。这种类型的架构称为事件驱动架构。在本文中,我们的示例应用程序使用事件驱动架构来处理示例病人出院小结,并总结文档的详细信息。工作流程如下:

  1. 当文档上传到 S3 存储桶时,Amazon S3 会触发对象创建事件。

  2. EventBridge 默认事件总线根据 EventBridge 规则将事件传播到 Step Functions。

  3. 状态机工作流程开始处理文档,从 Amazon Textract 开始。

  4. Lambda 函数转换经过分析的数据以用于下一步。

  5. 状态机调用托管 FM 的 SageMaker endpoint,通过直接的 Amazon SDK 集成。

  6. 摘要 S3 目标存储桶接收从 FM 收集的摘要响应。

我们使用示例应用程序及 flan-t5 Hugging face 模型来总结以下使用 Step Functions 工作流程的示例病人出院小结。

9-5.patient-discharge.png

Step Functions工作流程使用 Amazon SDK 集成调用 Amazon Textract AnalyzeDocument 和 SageMaker 运行时InvokeEndpoint API,如下图所示。

9-6.flow-of-functions.png

此工作流程生成存储在目标存储桶中的摘要 JSON 对象。JSON 对象如下所示:

{"summary": ["John Doe is a 35-year old male who has been experiencing stomach problems for two months. He has been taking antibiotics for the last two weeks, but has not been able to eat much. He has been experiencing a lot of abdominal pain, bloating, and fatigue. He has also noticed a change in his stool color, which is now darker. He has been taking antacids for the last two weeks, but they no longer help. He has been experiencing a lot of fatigue, and has been unable to work for the last two weeks. He has also been experiencing a lot of abdominal pain, bloating, and fatigue. He has been taking antacids for the last two weeks, but they no longer help. He has been experiencing a lot of abdominal pain, bloating, and fatigue. He has been taking antacids for the last two weeks, but they no longer help. He has been experiencing a lot of abdominal pain, bloating, and fatigue. He has been taking antacids for the last two weeks, but they no longer help. He has been experiencing a lot of abdominal pain, bloating, and fatigue. He has been taking antacids for the last two weeks, but they no longer help."],"forms": [{"key": "Ph: ","value": "(888)-(999)-(0000) "},{"key": "Fax: ","value": "(888)-(999)-(1111) "},{"key": "Patient Name: ","value": "John Doe "},{"key": "Patient ID: ","value": "NARH-36640 "},{"key": "Gender: ","value": "Male "},{"key": "Attending Physician: ","value": "Mateo Jackson, PhD "},{"key": "Admit Date: ","value": "07-Sep-2020 "},{"key": "Discharge Date: ","value": "08-Sep-2020 "},{"key": "Discharge Disposition: ","value": "Home with Support Services "},{"key": "Pre-existing / Developed Conditions Impacting Hospital Stay: ","value": "35 yo M c/o stomach problems since 2 months. Patient reports epigastric abdominal pain non- radiating. Pain is described as gnawing and burning, intermittent lasting 1-2 hours, and gotten progressively worse. Antacids used to alleviate pain but not anymore; nothing exacerbates pain. Pain unrelated to daytime or to meals. Patient denies constipation or diarrhea. Patient denies blood in stool but have noticed them darker. Patient also reports nausea. Denies recent illness or fever. He also reports fatigue for 2 weeks and bloating after eating. ROS: Negative except for above findings Meds: Motrin once/week. Tums previously. PMHx: Back pain and muscle spasms. No Hx of surgery. NKDA. FHx: Uncle has a bleeding ulcer. Social Hx: Smokes since 15 yo, 1/2-1 PPD. No recent EtOH use. Denies illicit drug use. Works on high elevation construction. Fast food diet. Exercises 3-4 times/week but stopped 2 weeks ago. "},{"key": "Summary: ","value": "some activity restrictions suggested, full course of antibiotics, check back with physican in case of relapse, strict diet "}]}

使用 IDP 与无服务器实现在大规模上生成这些摘要,可以以高效的方式为组织提供有意义、简洁和可呈现的数据。 Step Functions 不限于一次处理一个文档的方式来处理文档。它的分布式映射功能可以按计划总结大量文档。

示例应用程序使用 flan-t5 Hugging face 模型;但是,您可以选择自己的 FM endpoint。模型的训练和运行超出了示例应用程序的范围。请遵循 GitHub 仓库中的说明来部署示例应用程序。上述架构提供了如何使用 Step Functions 编排 IDP 工作流的指导。有关使用亚马逊云科技 AI 服务和 FMs 构建应用程序的详细说明,请参阅 IDP 生成式AI Workshop。

设置解决方案

按照 README 中的步骤设置解决方案架构(SageMaker endpoint 除外)。在您拥有自己的 SageMaker endpoint 后,可以将 endpoint 名称作为参数传递给模板。

清理

为了节省费用,请删除教程中部署的资源:

  1. 按照 README 中的清理部分的步骤进行操作。

  2. 从 Amazon S3 控制台中删除 S3 存储桶中的任何内容,然后删除存储桶。

  3. 通过 SageMaker 控制台删除您可能创建的任何 SageMaker endpoint。

结论

生成式 AI 正在改变您可以如何使用 IDP 来洞察文档。Amazon Textract 等亚马逊云科技 AI 服务以及 Amazon FMs 可以帮助准确处理任何类型的文档。有关在亚马逊云科技上使用生成式AI的更多信息,请参阅发布在亚马逊云科技上构建生成式 AI 的新工具。

文章来源:https://dev.amazoncloud.cn/column/article/64e5fcaa5cf856038494f188?sc_medium=regulartraffic&sc_campaign=crossplatform&sc_channel=CSDN 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/77017.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Blender之锁定摄像机到视图方位

文章目录 当你在blender 中时,想要让你的摄像机跟随你的视图方位,以方便你的后期的制作,那应该怎么半? 先点击摄像机的图标,进入摄像机视图 然后按一下键盘的N 键,进入编辑模式,选择视图 最后…

【业务功能107】微服务-springcloud-springboot-Sentinel容器安装-熔断降级限流

Sentinel 在微服务架构下,会涉及到 微服务A需要远程调用其他的微服务B,C,D等的接口,比如商品服务接口,需要调用库存服务数据,秒杀服务数据等,这里就会衍生一个长链路的调用过程,那么一旦下游需要被调用的数…

800V威迈斯车载充电机

800V威迈斯车载充电机VMAX二合一车载充电系统高压平台,将传统的6.6KW双向OBC、2.5KW DC\DC进行系统级的高功率密度集成;采用磁集成技术方案,创新性地将产品的原边绕组,高压绕组及低压Busbar进行系统级的集成;OBC功能转…

力扣(LeetCode)算法_C++——稀疏矩阵的乘法

给定两个 稀疏矩阵 :大小为 m x k 的稀疏矩阵 mat1 和大小为 k x n 的稀疏矩阵 mat2 ,返回 mat1 x mat2 的结果。你可以假设乘法总是可能的。 示例 1: 输入:mat1 [[1,0,0],[-1,0,3]], mat2 [[7,0,0],[0,0,0],[0,0,1]] 输出&am…

【STL】模拟实现map和set {带头结点的红黑树;红黑树的核心结构;红黑树的迭代器;红黑树的插入和查找;map和set的封装}

模拟实现map和set map和set是红黑树的两种不同封装形式,底层使用同一颗泛型结构的红黑树。set是红黑树的K模型;map是红黑树的KV模型。 下面的代码和讲解着重体现红黑树的底层实现和map\set上层封装的衔接。关于二叉搜索树性质,map和set的介…

UMA 2 - Unity Multipurpose Avatar☀️四.UMA人物部位的默认颜色和自定义(共享)颜色

文章目录 🟥 人物颜色介绍1️⃣ 使用默认颜色2️⃣ 使用自定义颜色🟧 UMA自定义颜色的作用🟨 自定义颜色还可作为共享颜色🟥 人物颜色介绍 UMA不同部位的颜色分为默认的内置颜色和我们新定义的颜色. 1️⃣ 使用默认颜色 比如不勾选UseSharedColor时,使用的眼睛的默认…

品牌策划经理工作内容|工作职责|品牌策划经理做什么?

一位美国作家曾说过“品牌是一系列期望、记忆、故事和关系,他们共同构成了消费者最终原则一个产品或者服务的原因。” 所以,品牌经理这个岗位主要是创造感知价值主张,激发消费者购买这个品牌后带来的感知价值,这种回报的本质相对…

Git 基本操作【本地仓库与远程仓库的推送、克隆和拉取】

文章目录 一、Git简介二、Git的下载安装三、Git常规命令四、新建本地仓库五、本地分支操作六、Git远程仓库七、远程仓库克隆、抓取和拉取八、总结九、学习交流 一、Git简介 Git是分布式版本控制系统(Distributed Version Control System,简称 DVCS&…

使用rpm重新安装包

#查询 rpm -qa | grep cloudstack #卸载 rpm -e cloudstack-agent-4.18.0.0-1.x86_64 #安装 rpm -ivh cloudstack-agent-4.18.0.0-1.x86_64.rpm

【PowerQuery】PowerQuery学习路径

PowerQuery这么好,怎么去学习呢?相信很多初读本书的朋友迫切的希望了解整个PowerQuery全景知识和它提供的相应的功能。但是对于PowerQuery来说,一开始就会进行自定义函数的构建当然也是不可能的,这里有相应的学习路径来进行由浅入深的学习,帮助读者更好的理解PowerQuery的…

leetcode 649. Dota2 参议院

2023.9.11 先简化一下题意:本题的意思就是每次投票中,前面的议员可以干掉后面的议员(当然是干掉敌对方的),然后他将参与下一次的投票,而被干掉的议员则不能参与投票了。 如:[R D D] -> [R D] ->[R D]->[D] 。…

【算法基础】时间复杂度和空间复杂度

目录 1 算法的评价 2 算法复杂度 2.1 时间复杂度(Time Complexity) 2.1.1 如何计算时间复杂度: 2.1.2 常见的时间复杂度类别与示例 2.2 空间复杂度 2.2.1 如何计算空间复杂度 2.2.2 常见的空间复杂度与示例 3 时间复杂度和空间复杂度…

【附安装包】2023最新版Python安装详细教程!一键安装,永久使用

一、python官网 Python官网主要有python的About (简介)、Downloads (下载)、Documentation(文档)、Community (团体)、Success Stories (成功案例)、News (新闻)、Events (事件动态)等栏目。 Python官网地址:https://www.python.org/ 【领取方式见文末】 二、在…

免费的低代码助力售后工单管理:快速搭建,高效定制

编者按:本文旨在阐述免费且高效的低代码平台在实现售后工单管理系统方面的优势、功能及其作用。这些优势和功能对于提高企业的服务质量和效率具有重要的意义。 关键词:低代码平台、售后工单系统、私有化部署 1.售后工单系统有什么作用? 售后工…

day55:C++ day5,运算符重载剩余部分、静态成员、继承

#include <iostream> #include <cstring> #define pi 3.14 using namespace std;class Shape { protected:double round;double area; public://无参构造Shape():round(40),area(100){cout<<"Shape::无参构造函数&#xff0c;默认周长为40&#xff0c;面…

Python的命令行参数

Python的命令行参数&#xff0c;提供了很多有用的功能&#xff0c;可以方便调试和运行&#xff0c;通过man python就能查看&#xff0c;以下是一些常用参数使用实例和场景: 1. -B参数 在import时候&#xff0c;不产生pyc或者pyo文件: 比如有程序main.py如下: from Hello im…

软件测试/测试开发丨使用ChatGPT自动进行需求分析

简介 在实际工作过程中&#xff0c;常常需要拿到产品的PRD文档或者原型图进行需求分析&#xff0c;为产品的功能设计和优化提供建议。 而使用ChatGPT可以很好地帮助分析和整理用户需求。 实践演练 接下来&#xff0c;需要使用ChatGPT 辅助我们完成需求分析的任务 注意&…

数据链路层相关知识

数据链路层的作用 两个设备(同一种数据链路节点)之间进行传递数据 认识以太网 "以太网"是一种技术标准;既包含了数据链路层的内容,也包含了一些物理层的内容.例如:规定了网络拓扑结构,访问控制方式,传输速率等;以太网中的网线必须使用双绞线;传输速率有10M,100M,1…

Linux设备驱动——自动创建设备节点udev机制的实现过程

创建设备文件的机制有以下下列几种&#xff1a; mknod命令&#xff1a;手动创建设备节点的命令devfs:可以用于创建设备节点&#xff0c;创建设备节点的逻辑在内核空间&#xff08;内核2.4版本之前使用&#xff09;udev:自动创建设备节点的机制&#xff0c;创建设备节点的逻辑在…

python机器人编程——用python实现一个写字机器人

目录 一、前言二、整体框架2.1 系统构成2.2 硬件介绍2.2.1主要组成部分2.2.2机械结构2.2.3驱动及控制主板PS电机驱动原理简介: 2.2.4其余部分 2.3 机器人python程序框架2.3.1通信服务模块2.3.2消息处理模块2.3.3轨迹解析模块2.3.4机械臂逆解模块2.3.5写字板模块 三、机械臂的建…