针对知识图谱使用 Mistral-7b 从简历中提取实体

翻译:“Entity Extraction from Resume using Mistral-7b for Knowledge Graphs” | by Tejpal Kumawat | Feb, 2024 | Medium[1]

在快速发展的自然语言处理(NLP)领域,从非结构化文本源中准确提取和分析信息的能力变得越来越重要。这种能力最具挑战性和相关性的应用之一就是处理简历以创建知识图谱。简历是密集而复杂的文档,包含大量有关应聘者职业经历、技能和资质的信息。然而,要准确有效地提取这些信息,需要先进的 NLP 技术。

这就是 "使用 Mistral-7b-Instruct-v2 for Knowledge Graphs 从简历中提取实体 "发挥作用的地方。Mistral-7b-Instruct-v2 是一种先进的语言教学模型,它通过识别和分类关键实体(如姓名、组织、职位名称、技能和教育详情),提供了一种创新的简历解析方法。通过利用 Mistral-7b 的指令功能,我们不仅可以高精度地提取这些实体,还能以有利于创建综合知识图谱的方式对它们进行结构化处理。

知识图谱可以组织和可视化实体之间的关系,提供数据的整体视图,这对招聘、人才管理和职位匹配等各种应用都有极大的价值。在本博客中,我们将深入探讨 Mistral-7b-instruct 如何改变简历分析流程、实体提取背后的技术基础以及从提取的数据中构建知识图谱的步骤。我们还将探讨这项技术对未来人力资源和招聘分析的潜在好处和影响。

这就是典型的知识图谱:

图片

None

由于数据隐私的原因,我们可能无法使用 openAI 或其他可用的 API。那么问题来了,我们该如何使用离线模型来准确地完成这项任务呢?

我们将使用 https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2,这是我们的用例模型。

我们将一步一步地从简历中获取相关实体。

第 1 步:从 PDF 或图片中提取文本。

我没有展示实现这一点的代码,但如果您有 PDF 文件,可以使用 Pymupdf;如果您有简历图片,可以使用 Pytesseract。

简历文本是我们的用例:

text="Developer <span class=\"hl\">Developer</span> Developer - TATA CONSULTANTCY SERVICE Batavia, OH Relevant course work† Database Systems, Database Administration, Database Security & Auditing, Computer Security,Computer Networks, Programming & Software Development, IT, Information Security Concept & Admin,† IT System Acquisition & Integration, Advanced Web Development, and Ethical Hacking: Network Security & Pen Testing. Work Experience Developer TATA CONSULTANTCY SERVICE June 2016 to Present MRM (Government of ME, RI, MS) Developer†††† Working with various technologies such as Java, JSP, JSF, DB2(SQL), LDAP, BIRT report, Jazz version control, Squirrel SQL client, Hibernate, CSS, Linux, and Windows. Work as part of a team that provide support to enterprise applications. Perform miscellaneous support activities as requested by Management. Perform in-depth research and identify sources of production issues.†† SPLUNK Developer† Supporting the Splunk Operational environment for Busine...OF COMMERCE - BANGKOK, TH June 1997 to May 2001 Skills Db2 (2 years), front end (2 years), Java (2 years), Linux (2 years), Splunk (2 years), SQL (3 years) Certifications/Licenses Splunk Certified Power User V6.3 August 2016 to Present CERT-112626 Splunk Certified Power User V6.x May 2017 to Present CERT-168138 Splunk Certified User V6.x May 2017 to Present CERT -181476 Driver's License Additional Information Skills† ∑††††SQL, PL/SQL, Knowledge of Data Modeling, Experience on Oracle database/RDBMS.† ∑††††††††Database experience on Oracle, DB2, SQL Sever, MongoDB, and MySQL.† ∑††††††††Knowledge of tools including Splunk, tableau, and wireshark.† ∑††††††††Knowledge of SCRUM/AGILE and WATERFALL methodologies.† ∑††††††††Web technology included: HTML5, CSS3, XML, JSON, JavaScript, node.js, NPM, GIT, express.js, jQuery, Angular, Bootstrap, and Restful API.† ∑††††††††Working Knowledge in JAVA, J2EE, and PHP.† Operating system Experience included: Windows, Mac OS, Linux (Ubuntu, Mint, Kali)"
第二步:提取实体。

您可以使用 Google Colab 运行下面的代码,我使用的是 AWS 实例。

为了按照模式实现我们的提取目标,我将使用一系列提示链,每个提示链只关注一项任务--提取特定实体。通过这种方式,可以避免令牌限制。同时,提取的质量也会很好

必要的库:

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

下载模型:

model_name = "mistralai/Mistral-7B-Instruct-v0.2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name,trust_remote_code=True,torch_dtype=torch.float16,# load_in_8bit=True,# load_in_4bit=True,device_map="auto",use_cache=True,
)

设置 Langchain 和配置模型

from langchain.prompts.few_shot import FewShotPromptTemplate
from langchain.prompts.prompt import PromptTemplatefrom transformers import AutoTokenizer, TextStreamer, pipeline,LlamaForCausalLM,AutoModelForCausalLM
from langchain import HuggingFacePipeline, PromptTemplate
DEVICE = "cuda:0" if torch.cuda.is_available() else "cpu"
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)text_pipeline = pipeline("text-generation",model=model,tokenizer=tokenizer,max_new_tokens=5000,do_sample=False,repetition_penalty=1.15,streamer=streamer
)llm = HuggingFacePipeline(pipeline=text_pipeline, model_kwargs={"temperature": 0.1})

现在我们可以使用 LLM 了、

个人相关信息

提示

person_prompt_tpl="""From the Resume text for a job aspirant below, extract Entities strictly as instructed below
1. First, look for the Person Entity type in the text and extract the needed information defined below:`id` property of each entity must be alphanumeric and must be unique among the entities. You will be referring this property to define the relationship between entities. NEVER create new entity types that aren't mentioned below. Document must be summarized and stored inside Person entity under `description` propertyEntity Types:label:'Person',id:string,role:string,description:string //Person Node
2. Description property should be a crisp text summary and MUST NOT be more than 100 characters
3. If you cannot find any information on the entities & relationships above, it is okay to return empty value. DO NOT create fictious data
4. Do NOT create duplicate entities
5. Restrict yourself to extract only Person information. No Position, Company, Education or Skill information should be focussed.
6. NEVER Impute missing values
Example Output JSON:
{{"entities": [{{"label":"Person","id":"person1","role":"Prompt Developer","description":"Prompt Developer with more than 30 years of LLM experience"}}]}}Question: Now, extract the Person for the text below -{text}Answer:
"""

这将帮助我们以 json 格式获取有关个人的信息,并使用我们显示的指令。

from langchain.chains import LLMChain
prompttemplate=PromptTemplate(template=person_prompt_tpl,input_variables=['text'])
chain=LLMChain(llm=llm,prompt=prompttemplate)
import time
t1=time.time()
result=chain(text)
t2=time.time()print(t2-t1)

输出 → 个人信息

{
"entities":[{"label":"Person","id":"developer1","role":"Developer","description":"Experienced developer with expertise in Java, JSP, JSF, DB2(SQL), LDAP, BIRT report, Jazz version control, Squirrel SQL client, Hibernate, CSS, Linux, and Windows. Has worked as a Splunk Developer supporting the Splunk Operational environment for Business Solutions Unit."}
]
}

这太棒了,我们在想要的表单中获得了关于此人的标签、身份、角色和描述。

2. 个人教育信息:

提示

edu_prompt_tpl="""From the Resume text for a job aspirant below, extract Entities strictly as instructed below
1. Look for Education entity type and generate the information defined below:`id` property of each entity must be alphanumeric and must be unique among the entities. You will be referring this property to define the relationship between entities. NEVER create other entity types that aren't mentioned below. You will have to generate as many entities as needed as per the types below:Entity Definition:label:'Education',id:string,degree:string,university:string,graduationDate:string,score:string,url:string //Education Node
2. If you cannot find any information on the entities above, it is okay to return empty value. DO NOT create fictious data
3. Do NOT create duplicate entities or properties
4. Strictly extract only Education. No Skill or other Entities should be extracted
5. DO NOT MISS out any Education related entity
6. NEVER Impute missing values
Output JSON (Strict):
{{"entities": [{{"label":"Education","id":"education1","degree":"Bachelor of Science","graduationDate":"May 2022","score":"0.0"}}]}}Question: Now, extract Education information as mentioned above for the text below -{text}Answer:
"""
from langchain.chains import LLMChain
prompttemplate=PromptTemplate(template=edu_prompt_tpl,input_variables=['text'])
chain=LLMChain(llm=llm,prompt=prompttemplate)
import time
t1=time.time()
result=chain(text)
t2=time.time()print(t2-t1)

产出 → 有关个人的教育情况:

{
"entities": [{"label": "Education","id": "education1","degree": "Master of Science in Information Technology","university": "KENNESAW STATE UNIVERSITY","graduationDate": "May 2015"},{"label": "Education","id": "education2","degree": "Master of Business Administration in International Business","university": "AMERICAN INTER CONTINENTAL UNIVERSITY ATLANTA","graduationDate": "December 2005"},{"label": "Education","id": "education3","degree": "Bachelor of Arts in Public Relations","university": "THE UNIVERSITY OF THAI CHAMBER OF COMMERCE","graduationDate": "May 2001"}
]
}

这真是令人难以置信,我们得到了包含个人所有教育信息的 json。

3. 个人技能信息

提示

skill_prompt_tpl="""From the Resume text below, extract Entities strictly as instructed below
1. Look for prominent Skill Entities in the text. The`id` property of each entity must be alphanumeric and must be unique among the entities. NEVER create new entity types that aren't mentioned below:Entity Definition:label:'Skill',id:string,name:string,level:string //Skill Node
2. NEVER Impute missing values
3. If you do not find any level information: assume it as `expert` if the experience in that skill is more than 5 years, `intermediate` for 2-5 years and `beginner` otherwise.
Example Output Format:
{{"entities": [{{"label":"Skill","id":"skill1","name":"Neo4j","level":"expert"}},{{"label":"Skill","id":"skill2","name":"Pytorch","level":"expert"}}]}}Question: Now, extract entities as mentioned above for the text below -
{text}Answer:
"""
from langchain.chains import LLMChain
prompttemplate=PromptTemplate(template=skill_prompt_tpl,input_variables=['text'])
chain=LLMChain(llm=llm,prompt=prompttemplate)
import time
t1=time.time()
result=chain(text)
t2=time.time()print(t2-t1)

输出 → 个人技能信息:

{
"entities":[{"label":"Skill","id":"skill1","name":"Java","level":"expert"},{"label":"Skill","id":"skill2","name":"JSP","level":"expert"},{"label":"Skill","id":"skill3","name":"JSF","level":"expert"},{"label":"Skill","id":"skill4","name":"DB2","level":"intermediate"},{"label":"Skill","id":"skill5","name":"Linux","level":"expert"},{"label":"Skill","id":"skill6","name":"Windows","level":"intermediate"},{"label":"Skill","id":"skill7","name":"SQL","level":"expert"},{"label":"Skill","id":"skill8","name":"Oracle","level":"intermediate"},{"label":"Skill","id":"skill9","name":"MySQL","level":"intermediate"},{"label":"Skill","id":"skill10","name":"MongoDB","level":"beginner"},{"label":"Skill","id":"skill11","name":"HTML5","level":"expert"},{"label":"Skill","id":"skill12","name":"CSS3","level":"expert"},
...id":"skill15","name":"JavaScript","level":"expert"},{"label":"Skill","id":"skill16","name":"Node.js","level":"expert"},{"label":"Skill","id":"skill17","name":"NPM","level":"expert"},{"label":"Skill","id":"skill18","name":"GIT","level":"expert"},{"label":"Skill","id":"skill19","name":"express.js","level":"expert"},{"label":"Skill","id":"skill20","name":"jQuery","level":"expert"},{"label":"Skill","id":"skill21","name":"Angular","level":"expert"},{"label":"Skill","id":"skill22","name":"Bootstrap","level":"expert"},{"label":"Skill","id":"skill23","name":"Restful API","level":"expert"},{"label":"Skill","id":"skill24","name":"PHP","level":"intermediate"},{"label":"Skill","id":"skill25","name":"SCRUM/AGILE","level":"expert"},{"label":"Skill","id":"skill26","name":"WATERFALL methodologies","level":"expert"}
]
}

好了,我们以 Json 的形式获得了这个人的所有技能、

在这里,我们可以绘制如上图所示的知识图谱。

希望对你有用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/34995.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python教程:认识一下print函数

print() 是 Python 中一个非常基础但功能强大的函数&#xff0c;用于将数据输出到标准输出&#xff08;通常是控制台&#xff09;或文件。本文我们一起聊一下这个“平凡”的print函数。 原理 print() 函数的原理相对简单&#xff0c;它接受一个或多个参数&#xff0c;并将这些…

ravynOS 0.5.0 发布 - 基于 FreeBSD 的 macOS 兼容开源操作系统

ravynOS 0.5.0 发布 - 基于 FreeBSD 的 macOS 兼容开源操作系统 ravynOS - 一个旨在提供 macOS 的精致性和 FreeBSD 的自由度的操作系统 请访问原文链接&#xff1a;https://sysin.org/blog/ravynos/&#xff0c;查看最新版。原创作品&#xff0c;转载请保留出处。 作者主页…

snakeyaml从1.x升级2.x的方案

一、背景 因公司漏洞扫描&#xff0c;发现SnakeYAML 反序列化漏洞(CVE-2022-1471)&#xff0c;所以要求对SnakYaml进行升级。 因项目中未直接引用snakyaml包&#xff0c;经分析是springboot引用的这个包。但是在这个项目中&#xff0c;springboot用的版本是2.3.12.RELEASE版本…

睡眠剥夺对记忆巩固的神经生物学影响

近期&#xff0c;《自然》杂志刊载的研究揭示了睡眠不足对记忆相关神经信号的不利影响&#xff0c;强调了即使在后续恢复充分睡眠的情况下&#xff0c;这种损害亦难以完全逆转。 神经元作为大脑的基本功能单位&#xff0c;其活动并非孤立进行&#xff0c;而是通过复杂的网络连接…

QT拖放事件之四:自定义拖放操作-利用QDrag来拖动完成数据的传输-案例demo

1、核心代码 #include "Widget.h" #include "ui_Widget.h" #include "MyButton.h"Widget::Widget(QWidget *parent): QWidget

CSS3 分页

CSS3 分页 分页是网页设计中常见的一种布局方式&#xff0c;它允许将内容分布在多个页面中&#xff0c;从而提高用户体验和网站的可管理性。CSS3 提供了多种灵活的方式来设计分页&#xff0c;使得开发者能够创建既美观又实用的分页导航。本文将详细介绍如何使用 CSS3 来创建和…

python 正则表达式提取字符串

以某个字符开始、某个字符结束&#xff0c;期待的提取结果包含首末字符串 提取公式&#xff1a;a re.findall(“开始字符串.*末字符串”,str) 以某个字符开始、某个字符结束&#xff0c;期待的提取结果不包含末字符串&#xff0c;但包含首字符串 提取公式&#xff1a;a re.…

Cesium--旋转3dtiles

以下代码来自Cesium 论坛&#xff1a;3DTileset rotation - CesiumJS - Cesium Community 在1.118中测试可行&#xff0c;可直接在Sandcastle中运行&#xff1a; const viewer new Cesium.Viewer("cesiumContainer", {terrain: Cesium.Terrain.fromWorldTerrain()…

机器学习课程复习——线性回归

Q&#xff1a;回归和分类的区别&#xff1f; 回归是连续的&#xff0c;分类是离散的 Q:用最小二乘法对线性回归模型进行参数估计思路 例题

排序。。。

1. 掌握常用的排序方法&#xff0c;并掌握用高级语言实现排序算法的方法&#xff1b; 2. 深刻理解排序的定义和各种排序方法的特点&#xff0c;并能加以灵活应用&#xff1b; 3. 了解各种方法的排序过程及其时间复杂度的分析方法。 编程实现如下功能&#xff1a; &#xff08;1…

Makefile中error函数的用法

在 Makefile 中&#xff0c;error 函数是一个特殊的函数&#xff0c;用于在执行过程中生成一个错误消息并终止 Makefile 的执行。它的基本语法如下&#xff1a; $(error error-message)其中&#xff0c;error-message 是一个字符串&#xff0c;表示要显示的错误消息。当 Makef…

vue+three.js渲染3D模型

安装three.js: npm install three 页面部分代码&#xff1a; <div style"width: 100%; height: 300px; position: relative;"><div style"height: 200px; background-color: white; width: 100%; position: absolute; top: 0;"><div id&…

【绕过无限Debugger】

文章目录 引言无限Debugger的工作原理绕过无限Debugger的常用技巧条件断点法置空法代码修改与加密 引言 在Web开发中&#xff0c;debugger语句是一种强大的JavaScript功能&#xff0c;允许开发者在代码中设置断点&#xff0c;便于调试和理解代码执行流程。然而&#xff0c;这一…

【文末附gpt升级秘笈】程序的“通用性”与“过度设计”的困境

程序的“通用性”与“过度设计”的困境 四、解决方案的深入阐述 &#xff08;一&#xff09;明确需求和目标&#xff1a;需求驱动设计 在软件开发的初期&#xff0c;我们需要与业务团队紧密合作&#xff0c;深入了解项目的实际需求和目标。这不仅包括明确的功能需求&#xf…

filelist中+incdir+的用法

在大多数 Verilog 编译器&#xff08;如 VCS、ModelSim/Questa、Verilator&#xff09;中&#xff0c;使用 incdir 选项指定包含路径后&#xff0c;仍然需要在 filelist 文件中列出每一个 Verilog 源文件。incdir 选项仅告诉编译器在特定目录中查找头文件&#xff08;例如 .vh …

go语言day4 引入第三方依赖 整型和字符串转换 进制间转换 指针类型 浮点数类型 字符串类型

Golang依赖下载安装失败解决方法_安装go依赖超时怎么解决-CSDN博客 go安装依赖包&#xff08;go get, go module&#xff09;_go 安装依赖-CSDN博客 目录 go语言项目中如何使用第三方依赖&#xff1a;&#xff08;前两步可以忽略&#xff09; 一、安装git&#xff0c;安装程序…

linux学习week1

linux学习 一.介绍 1.概述 linux的读法不下10种 linux是一个开源的操作系统&#xff0c;操作系统包括mac、windows、安卓等 linux的开发版&#xff1a;Ubuntu&#xff08;乌班图&#xff09;、RedHat&#xff08;红帽&#xff09;、CentOS linux的应用&#xff1a;linux在服…

归并排序与快速排序总结-c++

一&#xff0c;归并排序 归并排序&#xff08;Merge sort&#xff09;是建立在归并操作上的一种有效的排序算法。该算法分治法&#xff08;Divide and Conquer&#xff09;的一个非常典型的应用。 作为一种典型的分而治之思想的算法应用&#xff0c;归并排序的实现由两种方法…

KVM网络模式设置

一、KVM网络模式介绍 1、NAT ( 默认上网 ) 虚拟机利用host机器的ip进行上网,对外显示一个ip;virbr0是KVM 默认创建的一个 Bridge,其作用是为连接其上的虚机网卡提供NAT访问外网的功能,默认ip为192.168.122.1 2、自带的Bridge 将虚拟机桥接到host机器的网卡上,vm和ho…