dify实战案例分享-基于多模态模型的发票识别

1 什么是dify

Dify是一个开源的大语言模型(LLM)应用开发平台,旨在简化和加速生成式AI应用的创建和部署。它结合了后端即服务(Backend as Service, BaaS)和LLMOps的理念,使开发者能够快速搭建生产级的AI应用。

Dify的核心功能包括:

  1. 低代码/无代码开发:Dify提供了一个用户友好的界面,通过可视化的方式允许开发者轻松定义Prompt、上下文和插件等,无需深入底层技术细节。
  2. 模块化设计:采用模块化的设计,每个模块都有清晰的功能和接口,可以根据需求选择性地使用。
  3. 丰富的功能组件:包括AI工作流、RAG管道、Agent、模型管理、可观测性功能等,帮助开发者从原型到生产的全过程。
  4. 支持多种大语言模型:已支持OpenAI GPT系列等模型,并计划进一步扩展。
  5. 数据处理和特征工程工具:提供了数据清洗、特征选择、特征变换等功能,帮助开发者更好地准备数据。
  6. 集成外部知识源:允许自定义API接入外部知识源,让大型语言模型深入理解企业知识和业务。

此外,Dify还具有以下特点:

  • 面向各种技术背景的开发者:即使是没有编程基础的用户也能快速上手并参与到AI应用的定义和数据运营过程中。
  • 开源和社区支持:作为一个开源项目,Dify在GitHub上有活跃的社区支持,鼓励用户贡献和分享经验。

dify本身集成第三方工具和工作流。

在这里插入图片描述

目前官方最新dify 升级了0.10.1版本。目前该版本已经支持文件上传功能,所以我就给大家介绍一下带文件上传功能的发票识别。

2.什么是硅基流动

硅基流动是一家专注于人工智能基础设施和生成式AI技术的初创公司。硅基流动是致力于构建可扩展、标准化且高性能的生成式AI计算基础设施平台,提供包括SiliconCloud(模型云服务平台)、SiliconLLM(大型语言模型推理引擎)和OneDiff(高性能文本到图像/视频加速库)在内的多种软件解决方案。

公司的网站https://siliconflow.cn

目前公司有三个产品siliconCloud、siliconLLm、OneDiff

该公司提供市面上主流模型,而且最关键是免费。
在这里插入图片描述

在这里插入图片描述

免费的模型涵盖文本生成、向量&重排序模型、图片生成、多模态大模型 等各种模型。提供一站式模型服务,这个比较爽。

目前新户注册送14块钱,大家可以通过我提供分析网址连接来感受这个免费的api模型服务。https://cloud.siliconflow.cn/i/e0f6GCrN

3 硅基流动功能介绍

注册登录后我们就可以进入体验中心

在这里插入图片描述

我们可以在右边的模型下拉列表中选择免费或则收费的模型

在这里插入图片描述

文本类模型还是蛮丰富的。

文生图和图生图 也支持目前市面主流图像生成模型(FLUX.1-dev 、FLUX.1-schnell、stable-diffusion-3-medium、stable-diffusion-xl-base-1.0、stable-diffusion-2-1、sd-turbo、sdxl-turbo、SDXL-Lightning)

在这里插入图片描述

其他使用方法这里就不过多介绍了。

4 硅基流动创建API

登录https://cloud.siliconflow.cn/account/ak,账号管理,点击新建API秘钥

在这里插入图片描述

这个创建的秘钥记得保存,后面流程中会用到。

5 dify创建发票识别机器人

5.1 模型设置

登录dify 点击右上角设置-模型供应商

在这里插入图片描述

找到硅基流动,输入步骤4上创建的API

在这里插入图片描述

在这里插入图片描述

关于硅基流动多模态模型设置。这里我们需要注意目前硅基流动增加多模态识别模型.dify功能目前还不支持关于硅基流动多模态模型的设置,所以我们需要借助标准OpenAI-API-compatible 来设置这个多模态模型

目前硅基支持以下几种多模态模型

在这里插入图片描述

点击 OpenAI-API-compatible,添加模型

在这里插入图片描述

在这里插入图片描述

这里我们设置一下硅基流动多模态模型的配置,这里我们就以Qwen/Qwen2-VL-72B-Instruct 为案例给大家介绍,大家可以看我下面的截图设置

在这里插入图片描述

在这里插入图片描述

其他的和之前传统的llm模型设置一样,这里注意地方就是多模态VISION这个需要设置。点击保存完成模型设置。

5.2创建工作流或者chatflow

接着来到Dify中按下图顺序依次点击并点击创建(注:chatflow和工作流配置基本差不多,下面我们就以chatflow讲解)

在这里插入图片描述

在这里插入图片描述

5.2.1开始

  开始节点点开后我们需要添加一个文件上传输入参数。点击开始节点输入字段,点击右边的“+”

在这里插入图片描述

我们选择单个文件,输入变量名称、支持的文件类型我们这里就选择图片。其他都可以默认,输入完成后,点击保存按钮

在这里插入图片描述

以上步骤完成开始节点设置。

在这里插入图片描述

5.2.2文档提取器

接下来我们在工作流画布中,选择文档提取器和开始节点连接,去掉llm和开始节点连接

在这里插入图片描述
在这里插入图片描述

我们在文档提取器,输入变量中选中 变量

在这里插入图片描述

5.2.3 llm

接下来我们将文档提取器的连接线和llm大语言模型连接。然后按照以下几个步骤设置

1.模型选择,模型我们在模型下拉列表中选择自定义OpenAI-API-compatible Qwen/Qwen2-VL-72B-Instruct模型;模型最大标记4096

2.上下文,这里设置开始节点file 属性值

3.SYSTEM 提示词 我们输入如下内容

请提取这张照片的内容,其中内容格式‘机器编号’、‘发票代码’、‘发票号码’、‘开票日期’、‘校 验 码’、‘购买方名称’、‘购买方纳税人识别号’、‘购买方地 址、电 话’、‘开户行及账号’、‘货物或应税劳务、服务名称’、‘规格型号’、‘单 位’、‘数 量’、‘单 价’、‘金 额’、‘税率’、‘税 额’、‘价税合计(大写)’、‘价税合计(小写)’、‘销售方名称’、‘销售方纳税人识别号’、‘销售方地 址、电 话’、‘销售方地 址、电 话’、‘开户行及账号’、‘备注’、‘收款人’、‘复核’、‘开票人’ 字段返回信息,返回的结果信息以json格式返回

4.视觉 点击右边按钮开启多模态

5 视觉输入变量 选择节点file 变量

以上完成llm模型的设置

在这里插入图片描述

在这里插入图片描述

5.2.4 直接回复

接下来我们将LLM模型连接到直接回复的输出节点。

这个地方设置比较简单,在回复设置一下llm text文本输出以及 开始节点file 输出,这样设置后。就会将发票提取的票面信息以json格式的文本信息返回,并将上传的发票图片信息一并返回给用户

在这里插入图片描述

通过以上方式我们就初步完成了整个chatflow工作流。

完整的dsl 如下

app:  description: ''  icon: 🤖  icon_background: '#FFEAD5'  mode: advanced-chat  name: 增值税发票提取小工具chatflow  use_icon_as_answer_icon: falsekind: appversion: 0.1.2workflow:  conversation_variables: []  environment_variables: []  features:    file_upload:      allowed_file_extensions:      - .JPG      - .JPEG      - .PNG      - .GIF      - .WEBP      - .SVG      allowed_file_types:      - image      allowed_file_upload_methods:      - local_file      - remote_url      enabled: false      image:        enabled: false        number_limits: 3        transfer_methods:        - local_file        - remote_url      number_limits: 3    opening_statement: ''    retriever_resource:      enabled: true    sensitive_word_avoidance:      enabled: false    speech_to_text:      enabled: false    suggested_questions: []    suggested_questions_after_answer:      enabled: false    text_to_speech:      enabled: false      language: ''      voice: ''  graph:    edges:    - data:        sourceType: llm        targetType: answer      id: llm-answer      source: llm      sourceHandle: source      target: answer      targetHandle: target      type: custom    - data:        isInIteration: false        sourceType: start        targetType: document-extractor      id: 1729851066338-source-1729851603790-target      source: '1729851066338'      sourceHandle: source      target: '1729851603790'      targetHandle: target      type: custom      zIndex: 0    - data:        isInIteration: false        sourceType: document-extractor        targetType: llm      id: 1729851603790-source-llm-target      source: '1729851603790'      sourceHandle: source      target: llm      targetHandle: target      type: custom      zIndex: 0    nodes:    - data:        desc: ''        selected: false        title: 开始        type: start        variables:        - allowed_file_extensions: []          allowed_file_types:          - image          allowed_file_upload_methods:          - local_file          - remote_url          label: file          max_length: 48          options: []          required: true          type: file          variable: file      height: 90      id: '1729851066338'      position:        x: 0        y: 277      positionAbsolute:        x: 0        y: 277      selected: true      sourcePosition: right      targetPosition: left      type: custom      width: 244    - data:        context:          enabled: true          variable_selector:          - '1729851066338'          - file        desc: ''        memory:          query_prompt_template: ''          role_prefix:            assistant: ''            user: ''          window:            enabled: false            size: 10        model:          completion_params:            temperature: 0.7          mode: chat          name: Qwen/Qwen2-VL-72B-Instruct          provider: openai_api_compatible        prompt_template:        - id: 994d57b8-32bc-45cd-b30a-4a1481553627          role: system          text: 请提取这张照片的内容,其中内容格式‘机器编号’、‘发票代码’、‘发票号码’、‘开票日期’、‘校 验 码’、‘购买方名称’、‘购买方纳税人识别号’、‘购买方地            址、电 话’、‘开户行及账号’、‘货物或应税劳务、服务名称’、‘规格型号’、‘单 位’、‘数 量’、‘单 价’、‘金 额’、‘税率’、‘税            额’、‘价税合计(大写)’、‘价税合计(小写)’、‘销售方名称’、‘销售方纳税人识别号’、‘销售方地 址、电 话’、‘销售方地 址、电 话’、‘开户行及账号’、‘备注’、‘收款人’、‘复核’、‘开票人’            字段返回信息,返回的结果信息以json格式返回        selected: false        title: LLM        type: llm        variables: []        vision:          configs:            detail: high            variable_selector:            - '1729851066338'            - file          enabled: true      height: 98      id: llm      position:        x: 589        y: 309      positionAbsolute:        x: 589        y: 309      selected: false      sourcePosition: right      targetPosition: left      type: custom      width: 244    - data:        answer: '{{#llm.text#}}'        desc: ''        selected: false        title: 直接回复        type: answer        variables: []      height: 103      id: answer      position:        x: 1004        y: 270      positionAbsolute:        x: 1004        y: 270      selected: false      sourcePosition: right      targetPosition: left      type: custom      width: 244    - data:        desc: ''        is_array_file: true        selected: false        title: 文档提取器        type: document-extractor        variable_selector:        - sys        - files      height: 94      id: '1729851603790'      position:        x: 304        y: 285      positionAbsolute:        x: 304        y: 285      selected: false      sourcePosition: right      targetPosition: left      type: custom      width: 244    viewport:      x: -165.00000000000023      y: 102.99999999999994      zoom: 1.0000000000000002

5.3chatflow调试及发布

接下来我们点击工作流预览测试一下。

在这里插入图片描述

我们点击从本地文件上传,找一张增值税普通发票验证一下。

在这里插入图片描述

我们点开工作流看到流程节点是从开始-文档提取器-LLM-直接回复 4个流程节点,并且每个流程执行的时间都能详细展开看到。最后用户返回了发票提取的票面信息返回json值了。目前这个工作流适合增值税专用发票和增值税普通发票识别,如果大家需要识别全电发票,火车票还有其他类发票只要修改llm模型中的提示词即可。

在这里插入图片描述

目前我测试下来Qwen/Qwen2-VL-72B-Instruct模型的发票票面ocr识别率还是蛮准的,几乎是100%识别。

接下来我们可以将这个工作流发布或则以第三方接口形式对外提供

5.3.1发布

点击工作流左上角发布按钮对外提供发布

我们将分享的地址发送给其他小伙伴

在这里插入图片描述

我们点击 start chat 就可以使用了。

在这里插入图片描述

6 总结

目前dify官方最新版本升级到0.10.1版本 开始支持文件上传,图片上传等功能了。另外硅基流动大概在2024年10月18日上线了阿里和书生的多模态模型。今天就带大家感受一下dify新功能已经硅基流动的新模型整合。目前该工作流还只支持一种发票票面识别功能还比较单一,还不能识别更多发票。比如(火车票、手撕票、出租车票、医疗报销单等等)。dify工作流程这块有很多流程控制 通过这些流程控制其实是可以实现以上功能的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/59085.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

电机控制储备知识 一 电机驱动本质分析以及磁相关的使用场景

一:电机旋转的原因 1.电机基本认识 (1)电机是一种动力装置,能够将电能转换为动能 电机拥有体积小 、动力足,控制精细灵活的特点 完整的电机系统:电机(减速器 传感器) 电机驱动器&a…

ubuntu交叉编译dbus库给arm平台使用

1.下载dbus库源码 https://www.freedesktop.org/wiki/Software/dbus 克隆源码: https://gitlab.freedesktop.org/dbus/dbus/-/tree/dbus-1.12?ref_type=heads 下载1.12.20版本: 指定pkgconfig环境变量: export PKG_CONFIG_PATH=$PKG_CONFIG_PATH:$PWD/../expat-2.3.…

推荐一款音乐神器:想听就听,想下就下~

在这个音乐充斥生活的时代,你是否也曾想过,有一款软件可以随时随地畅听你喜欢的音乐?今天,我要向你推荐一款令人心动的音乐神器——MusicFree,让你真正体验“想听就听,想下就下”的乐趣! 那么&a…

aws(学习笔记第十课) 对AWS的EBS如何备份(snapshot)以及使用snapshot恢复数据,AWS实例存储

aws(学习笔记第十课) 对AWS的EBS如何备份(snapshot)以及使用snapshot,AWS实例存储 学习内容: 对AWS的EBS如何备份AWS实例存储EBS和实例存储的不足 1. 对AWS的EBS如何备份(snapshot)以及使用snapshot恢复数…

Unity照片墙效果

Unity照片墙效果,如下效果展示 。 工程源码

qt QMenu详解

1、概述 QMenu是Qt框架中的一个类,用于创建和管理菜单。它提供了丰富的接口来添加菜单项(通常是QAction对象)、子菜单以及分隔符。QMenu可以嵌入到菜单栏(QMenuBar)中,也可以作为弹出菜单(通过…

倍增 st表 RMQ问题

本章我们来谈谈,倍增 && st表 && RMQ问题。 倍增 倍增即成倍增长。是指我们在进行递推时,如果状态空间很大,线性递推无法满足时空要求,此时可以考虑成倍增长的方式,只递推状态空间在2的整数次幂位置上…

51单片机应用开发(进阶)---定时器应用(电子秒表)

实现目标 1、巩固定时器的配置流程; 2、掌握按键、数码管与定时器配合使用; 3、秒表具体实现:(1)按K1开始计时,再按K1暂停计时.......;(2)按K2计时清零;&a…

吴恩达深度学习笔记(11)13.

人脸检校:输入某人的照片以及姓名或ID,判断是不是他所说的那个人 人脸识别: 单样本学习: 大多数人脸识别的问题需要在样本中只有一张照片的情况下认出一个人。 相似性函数:利用神经网络训练一个函数,可…

链表详解(三)

目录 链表功能实现链表的查找SLNode* SLFind(SLNode* phead, SLNDataType x)代码 链表任意位置前插入void SLInsert(SLNode**pphead,SLNode* pos, SLNDataType x)代码 链表任意位置前删除void SLErase(SLNode**pphead,SLNode* pos)代码 链表任意位置后插…

《C#语法一篇通》,20万字,48小时阅读,持续完善中。。。

本文摘录了C#语法的主要内容,接近20万字。 所有鸡汤的味道都等于马尿! 如果你相信任何所谓的鸡汤文章,智商堪忧。 计算机语言没有”好不好“之说,骗子才会告诉你哪个语言好,学好任何一本基础语言(C&#…

HarmonyOS开发 - 餐饮APP中多门店多窗口打开实例补充

specified启动模式为指定实例模式,有一些特殊场景,例如多门店应用中每次打开一个门店都希望能新建一个门店实例,而重复打开同一个门店都是同一门店实例。 此篇为餐饮APP中多门店实例的补充内容,以解决同一门店多次点击重复创建新窗…

【Redis问题】(error) NOAUTH Authentication required.解决方法

问题描述: “(error) NOAUTH Authentication required”,通过ping方法和redis打招呼发现不成功,意思是没有这个权限(也就是没有密码) 问题解决1: 在命令后面加上密码(一般情况下,在…

关于自动化测试用例失败重试的一些思考

自动化测试用例失败重跑有助于提高自动化用例的稳定性,那我们来看一下,python和java生态里都有哪些具体做法? 怎么做 如果是在python生态里,用pytest做测试驱动,那么可以通过pytest的插件pytest-rerunfailures来实现…

Vue Router进阶详解

导航守卫 若依框架登录鉴权详解(动态路由)_若依鉴权-CSDN博客 完整的导航解析流程 导航被触发: 当用户点击页面中的链接、使用编程式导航(如router.push或router.replace)或手动输入URL时,导航流程被触发。…

Rust 力扣 - 1984. 学生分数的最小差值

文章目录 题目描述题解思路题解代码题目链接 题目描述 题解思路 原数组 nums 排序,遍历nums中下标为[0, nums.len() - k]的学生分数 假设当前遍历的下标为i则,以 i 下标为最小值的学生分数的最小差值为nums[i k - 1] - nums[i] 取最小差值的最小值即…

distrobox install in ubuntu 22.04 / 在 ubuntu 22.04 上安装 distrobox (***) OK

要点: 本测试实验,采用的是 podman distrobox 在沙盒 snap 中,安装 distrobox 需要使用 --devmode 开发模式;可以避开 distrobox 的版本检查? distrobox 官方文档显示, Installation https://distrobox.i…

IA应用加速,让电子供应链更智能高效

在当今数字化浪潮中,电子产品制造行业正经历着前所未有的变革。越来越多的企业开展全球化业务,进行数字化转型,对于网络时延的需求也更高。 客户背景 客户专注于为中小微电子产品制造企业提供产品技术方案开发、电子元器件采购、PCBA生产制造…

git 删除远程不存在本地命令却能看到的分支

要删除远程不存在但本地却能看到的分支&#xff0c;你可以按照以下步骤操作&#xff1a; 删除本地分支&#xff1a; 如果你确定要删除的分支已经没有用处&#xff0c;可以使用以下命令来删除本地分支&#xff1a; git branch -d <branch-name>这里的 <branch-name>…

从模糊搜索到语义搜索的进化之路——探索 Chroma 在大模型中的应用价值

目录 从模糊搜索到语义搜索的进化之路——探索 Chroma 在大模型中的应用价值 一、引言 二、实现语义搜索的数据库 Chroma 1、语义搜索是什么 2、Chroma 语义搜索的原理 三、如何在项目中应用 Chroma 1、Chroma 的实际应用场景 2、安装Chroma&#xff08;python环境&…