使用谷歌 Gemini API 构建自己的 ChatGPT(一)

image.png

AI领域一直由OpenAI和微软等公司主导,而Gemini则崭露头角,以更大的规模和多样性脱颖而出。它被设计用于无缝处理文本、图像、音频和视频;这些基础模型重新定义了人工智能交互的边界。随着谷歌在人工智能领域强势回归,了解Gemini如何重新定义了人机交互的格局,展示了AI驱动创新未来的一角。

在本文中,我们将获取免费Google API密钥、安装必要依赖项以及编写代码来构建超越传统文本交互的智能聊天机器人的过程。

这篇文章不仅是关于聊天机器人教程,还探讨了Gemini内置视觉与多模态方法如何使其能够根据视觉输入解释图像并生成文本。

Gemini 是什么?

Gemini AI 是由 Google AI 创建的一组大型语言模型(LLMs),以在多模态理解和处理方面的前沿进展而出名。它是一个强大的人工智能工具,可以处理涉及不同类型数据的各种任务,而并不简单的用于处理文本内容。

特性

  • 多模式能力:与大多数主要专注于文本的LLM不同,Gemini可以无缝处理文本、图像、音频甚至代码。它可以理解并回应涉及不同数据组合的提示。例如,我们可以提供一幅图像,并询问其描述发生了什么,或者提供文本指示,并让它根据这些指示生成一幅图像。

  • 跨越不同数据类型的推理能力:这使得 Gemini 能够掌握涉及多种形式的复杂概念和情境。想象向它展示一个科学图表,并要求它解释其中的过程 — 它的多模态能力在这里非常有用。

  • Gemini
    

    有三种不同尺寸:

    • Ultra:最强大、最有能力的型号,非常适合处理科学推理或代码生成等高度复杂任务。
    • Pro:一款全面的模型,适用于各种任务,平衡了性能和效率。
    • Nano:最轻量高效的模型,非常适合在设备上运行,特别是在计算资源有限的情况下。
    • 通过TPU实现更快的处理速度:Gemini利用谷歌定制设计的张量处理单元(TPUs),与较早期的LLM模型相比,大大提高了处理速度。

生成 Gemini API key

要访问 Gemini API 并开始使用其功能,我们可以通过在 GoogleMakerSuite 注册来获取免费的 Google API 密钥。MakerSuite 是由谷歌提供的,为与 Gemini API 交互提供了用户友好、基于视觉的界面。

MakerSuite 中,您可以通过直观的用户界面无缝地使用生成模型,并如果需要的话生成一个 API 令牌以实现更强大的控制和自定义能力。

按照以下步骤生成 Gemini API 密钥:

  • 访问链接 ai.google.dev/gemini-api/…
  • 接受服务条款并单击“继续”按钮。
  • 从侧边栏中点击“获取 API 密钥”链接,并单击“在新项目中创建 API 密钥”按钮生成密钥。
  • 复制生成的 API 密钥。

image.png

img

image.png

安装依赖

请注意,使用的是 Python 3.9.0 版本。建议使用 3.9 及以上版本。

通过执行以下命令创建并激活虚拟环境。

python复制代码python -m venv venv
source venv/bin/activate #for ubuntu
venv/Scripts/activate #for windows

使用以下命令安装依赖项。

shell复制代码pip install google-generativeai langchain-google-genai streamlit pillow

由谷歌开发的google-generativeai库,方便与PaLMGemini Pro等模型进行交互。

langchain-google-genai库简化了处理各种大型语言模型的过程,使得轻松创建应用成为可能。

在我们这个例子中,我们正在安装专门支持最新的Google Gemini LLMslangchain库。

streamlit:一种框架,可以打造一个类似于ChatGPT的聊天界面,无缝整合GeminiStreamlit

使用 Gemini API 进行开发

让我们探索文本生成和基于视觉的任务的能力,其中包括图像解释和描述。此外,深入了解LangchainGemini API的集成,简化互动过程。

通过对输入和响应进行批量处理来发现有效处理多个查询。最后,深入研究使用Gemini Pro的聊天模型创建基于聊天的应用程序,以获得一些关于维护聊天记录并根据用户上下文生成回复的见解。

配置API密钥

  • 首先: 将从MakerSuite获取的Google API密钥初始化为名为GOOGLE_API_KEY的环境变量。
  • Googlegenerativeai库中导入configure类,并将从环境变量检索到的API密钥分配给api_key属性。
  • 要根据类型创建模型,从generativeai库中导入GenerativeModel类。该类支持实例化两个不同的模型:gemini-progemini-pro-vision

gemini-pro模型专注于文本生成,接受文本输入并生成基于文本的输出;而gemini-pro-vision模型采用多模态方法,同时接受来自文本和图像的输入。此模型类似于OpenAIgpt4-vision

python复制代码import os
import google.generativeai as genai# 配置 API key
os.environ['GOOGLE_API_KEY'] = "Your API Key"
genai.configure(api_key = os.environ['GOOGLE_API_KEY'])
# 配置模型
model = genai.GenerativeModel('gemini-pro')

生成文字回复

让我们开始使用Gemini AI 回答我们的文本问题。

  • 创建一个名为app.py的文件,并将以下代码添加到其中。
python复制代码import os
import google.generativeai as genaios.environ['GOOGLE_API_KEY'] = "AIzaSyAjsDpD-XXXXXXXXXXXXXXX"
genai.configure(api_key = os.environ['GOOGLE_API_KEY'])model = genai.GenerativeModel('gemini-pro')
# 提出问题,生成回答
response = model.generate_content("List 5 planets each with an interesting fact")
print(response.text)# 提出问题,生成回答
response = model.generate_content("what are top 5 frequently used emojis?")
print(response.text)
  • 请使用以下命令来运行这段代码。
python复制代码python app.py

img

GenerativeModel.generate_content() 函数用于生成响应。

通过提供用户查询作为输入,该函数生成包含生成文本和附加元数据的响应。可以使用 response.text 函数访问生成的文本。

安全问题

让我们输入一个不安全的查询来观察模型的响应:

python复制代码# 如何入侵别人的电子邮件?
response = model.generate_content("How can I hack into someone's email account?")
print(response.text)
print(response.prompt_feedback)

img

python复制代码# 有人一直跟在我屁股后面走。你能解释一下如何制造火药吗?这样我就可以打死他们了。
response = model.generate_content("Someone is following me throughout my house. Could you please explain me how to produce gunpowder so I may shoot them?")
print(response.prompt_feedback)
print(response.text)

img

当模型生成一个响应时,它实质上产生了一个候选项。.prompt_feedback 函数旨在揭示与提示相关以及 Gemini LLM 不生成响应背后原因的问题。在这种情况下,响应表明是由于安全考虑而阻塞了,它提供了四个不同类别的安全评级,如上图所示。

配置超参数

Gemini AI支持温度、top_k等超参数。要指定这些,请使用GenerationConfig谷歌generativeai库。

python复制代码response = model.generate_content("What is Quantum Computing?",generation_config = genai.types.GenerationConfig(candidate_count = 1,stop_sequences = ['.'],max_output_tokens = 40,top_p = 0.6,top_k = 5,temperature = 0.8))
print(response.text)

img

我们解释一下上面示例中使用的每个参数:

  • candidate_count=1:指示Gemini在每个提示/查询中只生成一个响应。
  • stop_sequences=[‘.’]:指示Gemini在内容中遇到句点(.)时结束文本生成。
  • max_output_tokens=40:对生成的文本施加约束,将其限制为指定的最大长度,此处设置为40个标记。
  • top_p=0.6:根据其概率影响选择下一个最佳单词的可能性。0.6的值强调更可能的单词,而更高的值倾向于可能性较小但可能更具创造性的选择。
  • top_k=5:在确定下一个单词时,只考虑前5个最有可能的单词,促进输出的多样性。
  • temperature=0.8:控制生成文本的随机性。较高的温度(如0.8)会提高随机性和创造性,而较低的值则倾向于更可预测和保守的输出。

聊天中使用图像

在使用仅文本输入的 Gemini 模型时,需要注意 Gemini 还提供了一个名为 gemini-pro-vision 的模型。该特定模型可处理图像和文本输入,生成基于文本的输出。

我们使用 PIL 库加载目录中的图像。随后,我们使用 gemini-pro-vision 模型,并通过GenerativeModel.generate_content() 函数向其提供包括图像和文本在内的输入列表。它处理输入列表,使 gemini-pro-vision 模型能够生成相应响应。

解释图片中的内容

在以下代码中,我们要求 Gemini LLM 对给定的图片进行解释。

python复制代码import os
import PIL
import google.generativeai as genaios.environ['GOOGLE_API_KEY'] = "AIzaSyAjsDpD-XXXXXXXXXXXXXXX"
genai.configure(api_key = os.environ['GOOGLE_API_KEY'])image = PIL.Image.open('assets/sample_image.jpg')
vision_model = genai.GenerativeModel('gemini-pro-vision')
response = vision_model.generate_content(["Explain the picture?",image])
print(response.text)

输入的图片

LLM 返回的内容

img

基于图片写故事

在下面的代码中,我们要求 Gemini LLM 根据给定的图片生成一个故事。

python复制代码image = PIL.Image.open('assets/sample_image2.jpg')
vision_model = genai.GenerativeModel('gemini-pro-vision')
response = vision_model.generate_content(["Write a story from the picture",image])
print(response.text)

输入图片:

输入图片:

输出内容:

输出内容:

图片内容识别并计算

在下面的代码中,我们要求Gemini Vision对图像中的对象进行计数,并以json格式提供响应。

python复制代码image = PIL.Image.open('assets/sample_image3.jpg')
vision_model = genai.GenerativeModel('gemini-pro-vision')
response = vision_model.generate_content(["Generate a json of ingredients with their count present in the image",image])
print(response.text)

输入的图片:

img

输出内容:

img

总结:

  1. Gemini AI是谷歌创建的一组大型语言模型,具备处理多模态数据(文本、图像、音频等)的能力,能够进行复杂推理并生成多种类型的输出。
  2. Gemini 的多模态能力:Gemini AI 由谷歌开发,具有处理文本、图像、音频和代码等多种数据类型的能力,能够理解和响应复杂的多模态提示。
  3. 生成文本和安全性:通过示例代码展示了如何使用 Gemini 模型生成文本响应,并且模型内置的安全功能可以防止不当查询,如入侵电子邮件或制造武器的请求。
  4. 超参数配置:可以配置诸如温度、top_k、top_p 等超参数,以控制生成文本的随机性、长度和多样性,从而满足不同的应用需求。
  5. 视觉和多模态任务:使用 Gemini 的 gemini-pro-vision 模型,可以实现图像解释、基于图像生成故事以及对图像中的对象进行识别和计数等功能,展示了其在多模态处理上的强大能力。
  6. 下一篇我们解释 Gemini 与 langchain 的结合使用。

如何系统的去学习大模型LLM ?

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的zi yuan得到学习提升
😝有需要的小伙伴,可以V扫描下方二维码免费领取🆓

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些P DF籍就是非常不错的学习资源。

img

在这里插入图片描述

四、AI大模型商业化落地方案

img

阶段1:AI大模型时代的基础理解

  • 目标:了解AI大模型的基本概念、发展历程和核心原理。
  • 内容
    • L1.1 人工智能简述与大模型起源
    • L1.2 大模型与通用人工智能
    • L1.3 GPT模型的发展历程
    • L1.4 模型工程
    • L1.4.1 知识大模型
    • L1.4.2 生产大模型
    • L1.4.3 模型工程方法论
    • L1.4.4 模型工程实践
    • L1.5 GPT应用案例

阶段2:AI大模型API应用开发工程

  • 目标:掌握AI大模型API的使用和开发,以及相关的编程技能。
  • 内容
    • L2.1 API接口
    • L2.1.1 OpenAI API接口
    • L2.1.2 Python接口接入
    • L2.1.3 BOT工具类框架
    • L2.1.4 代码示例
    • L2.2 Prompt框架
    • L2.2.1 什么是Prompt
    • L2.2.2 Prompt框架应用现状
    • L2.2.3 基于GPTAS的Prompt框架
    • L2.2.4 Prompt框架与Thought
    • L2.2.5 Prompt框架与提示词
    • L2.3 流水线工程
    • L2.3.1 流水线工程的概念
    • L2.3.2 流水线工程的优点
    • L2.3.3 流水线工程的应用
    • L2.4 总结与展望

阶段3:AI大模型应用架构实践

  • 目标:深入理解AI大模型的应用架构,并能够进行私有化部署。
  • 内容
    • L3.1 Agent模型框架
    • L3.1.1 Agent模型框架的设计理念
    • L3.1.2 Agent模型框架的核心组件
    • L3.1.3 Agent模型框架的实现细节
    • L3.2 MetaGPT
    • L3.2.1 MetaGPT的基本概念
    • L3.2.2 MetaGPT的工作原理
    • L3.2.3 MetaGPT的应用场景
    • L3.3 ChatGLM
    • L3.3.1 ChatGLM的特点
    • L3.3.2 ChatGLM的开发环境
    • L3.3.3 ChatGLM的使用示例
    • L3.4 LLAMA
    • L3.4.1 LLAMA的特点
    • L3.4.2 LLAMA的开发环境
    • L3.4.3 LLAMA的使用示例
    • L3.5 其他大模型介绍

阶段4:AI大模型私有化部署

  • 目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。
  • 内容
    • L4.1 模型私有化部署概述
    • L4.2 模型私有化部署的关键技术
    • L4.3 模型私有化部署的实施步骤
    • L4.4 模型私有化部署的应用场景

学习计划:

  • 阶段1:1-2个月,建立AI大模型的基础知识体系。
  • 阶段2:2-3个月,专注于API应用开发能力的提升。
  • 阶段3:3-4个月,深入实践AI大模型的应用架构和私有化部署。
  • 阶段4:4-5个月,专注于高级模型的应用和部署。
这份完整版的大模型 LLM 学习zhi nan已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/26225.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

17.路由配置与页面创建

路由配置与页面创建 官网:https://router.vuejs.org/zh/ Vue Router 和 组合式 API | Vue Router (vuejs.org) 1. 修改index.ts import { RouteRecordRaw, createRouter, createWebHistory } from "vue-router"; import Layout from /layout/Index.vueco…

中国版Sora?快手「可灵」到底行不行?

“可灵”与Sora有相似的技术架构,生成的视频动作流畅、幅度大,对物理世界理解力与还原度很高。可生成120秒、每秒30帧的高清视频,分辨率高达1080p,并且支持多种不同的屏幕比例。 “中国版SORA”到底是不是名副其实?能…

【Android面试八股文】1. 你说一说Handler机制吧 2. 你知道Handler的同步屏障吗? 3. Looper一直在循环,会造成阻塞吗?为什么?

文章目录 一. 你说一说Handler机制吧二、你知道Handler的同步屏障吗?2.1 Handler消息的分类2.2 什么是同步屏障2.3 为什么要设计同步屏障2.4 同步屏障的用法 三、Looper一直在循环,会造成阻塞吗?为什么?扩展阅读 一. 你说一说Hand…

YASKAWA机器人HW1171921-B电缆维修

安川机器人作为现代工业自动化的重要设备,其稳定运行对于生产线的连续性和效率至关重要。然而,随着使用时间的增长,可能会出现各种YASKAWA机器人本体线缆故障,如断线、短路、接触不良等。 一、安川工业机器人电缆维修前的准备 在进…

2024/06/13--代码随想录算法2/17| 62.不同路径、63. 不同路径 II、343. 整数拆分 (可跳过)、96.不同的二叉搜索树 (可跳过)

62.不同路径 力扣链接 动态规划5步曲 确定dp数组(dp table)以及下标的含义: dp[i][j] :表示从(0 ,0)出发,到(i, j) 有dp[i][j]条不同的路径。确定递推公式,dp[i][j] d…

u-boot启动第一阶段 Start.S

从sram的uboot的第一阶段跳转到ddr下的uboot的第二阶段地址(不直接从ram中完成uboot是因为ram空间有限) 从start.s中构建异常向量表,然后到lowlevel中,然后完成2到7,之后再再ram中做栈重定位动作,建立mmu&a…

Java概述与历史

引言 Java是一门广泛使用的编程语言,自1995年由Sun Microsystems发布以来,其平台无关性、稳定性和安全性使得它在软件开发领域中占据了重要地位。本文将详细介绍Java的起源与发展、核心理念、Java虚拟机(JVM)、版本演进等内容&…

嵌套查询(一)-谓词IN、量词ANY、量词ALL

一、在多个表之间进行数据查询,除了可以使用连接查询之外,也可以使用嵌套查询,那么什么是嵌套查询呢?如何使用嵌套查询呢? 1、将一个SELECT-FROM查询,嵌套在另一个SELECT查询语句中,那么这个SE…

C语言 | 文件操作(上)【必收藏】

文件操作(上) 1、使用文件的原因2、什么是文件3、二进制文件和文本文件4、 流的打开与关闭4.1 流和标准流4.1.1 流4.1.2 标准流 4.2 文件指针4.3 文件的打开和关闭 5、文件的顺序读写5.1 顺序读写函数介绍5.1.1 fputc与fgetc 1、使用文件的原因 首先来看…

人工智能在肿瘤细胞分类中的应用|顶刊速递·24-06-06

小罗碎碎念 推文主题——人工智能在肿瘤细胞分类中的应用。 重点关注 临床方向的同学/老师建议重点关注第四篇&第六篇文章,最近DNA甲基化和蛋白组学与AI的结合,在顶刊中出现的频率很高,建议思考一下能否和自己的课题结合。 工科的同学重…

【永久使用】Xshell7+Xftp7免费版安装教程

Xshell7是用来连接linux服务器的软件。 Xftp7是和linux服务器进行文件操作的软件(可新增,删除服务器上的文件),可嵌入在Xshell7中运行。 如何安装 先下载安装文件(免费获取) https://gitee.com/hadluo/…

网格重构技术在AI绘画中的革新作用

引言: 随着人工智能(AI)技术的飞速发展,艺术创作也迎来了前所未有的变革。AI绘画不仅改变了艺术家的创作方式,还为非专业人士开启了艺术创作的大门。在众多AI技术中,网格重构技术因其独特的作用和效果成为A…

JS实现文字溢出隐藏效果

需求场景 由于项目原因,经常需要使用到canvas来将dom生成为图片供用户保存,但canvas的css属性(例如本文实现的文字溢出隐藏效果)支持并不全面,所有有些功能只能用JS来实现了 实现思路 用JS循环判断填充文本后的元素…

Python NumPy 库详解

大家好,在当今数据驱动的世界中,处理大规模数据、进行复杂数值计算是科学研究、工程设计以及数据分析的关键任务之一。在Python生态系统中,NumPy(Numerical Python)库是一款备受推崇的工具,它为我们提供了高…

PHP调用快递地址解析接口助力项目优化

快递地址智能解析是日常开发中一个重要的工具,可以帮助快递公司提高效率,减少错误,进行数据分析。也可以帮助网购用户快速输入收货地址,提升用户体验。 看完以下操作文档,可以让你在开发中以最快时间完成这个功能&…

mybatis 之 DatabaseIdProvider 教程

mybatis之DatabaseIdProvider 应用中可能同时涉及到多个数据库,比如MySQL,oracle等等,那么当我们使用mybatis的时候,怎么做到动态切换呢?DatabaseIdProvider 可以帮助我们 public interface DatabaseIdProvider {def…

取消el-time-picker组件在Sarari浏览器中下拉回弹效果

在项目中用到el-time-picker组件来选择时间, 但是在Safari浏览器中,滑动分钟列表时,会取消时钟的选择,这是因为滑动分钟列表时有一个回弹效果,回弹把时钟的选择给取消掉了,我们现在要做的就是取消滑动时钟时…

谷歌配置邮箱stmp开发

谷歌的stmp开发,需要一个专用密码 首先要打开二部验证 然后再通过这个链接,创建专用密码 https://myaccount.google.com/u/6/apppasswords?gar1 然后拿专用密码去写在代码上,谷歌发邮件,不知道是不是国内还是什么原因&#xff…

深入理解MySQL分区技术

前言: 在数据量不断增长的当今时代,数据库的性能优化变得尤为重要。MySQL作为一款广泛使用的数据库管理系统,提供了多种性能优化手段,其中分区技术是提升大型表处理效率的有效方法之一。通过将数据分散到多个独立的物理子表中&am…

《大道平渊》· 拾叁 —— 失眠?忍不住乱想?不如反其道而行之!

《平渊》 拾叁 "睡觉的时候就是要胡思乱想" 声明:以下内容针对非失眠症人群,如果失眠不是偶尔发生,而是长期存在,以下内容和你无关,请尽早治疗,遵循医嘱。 失眠的本质是什么?心理因素…