Bertopic环境安装与文本主题聚类

文章目录

  • 1.环境配置
    • (一)安装:anaconda
      • 1. 理解:为什么需要anaconda
      • 2. 下载anaconda
      • 3. 启动anaconda
    • (二)安装:python环境
    • (三)安装:依赖包
        • hdbscan的安装问题
        • 解决方案
          • 1. 安装build-tools-for-visual-studio
          • 2. 安装hdbscan
    • (四)安装transformers、BERTopic等重要依赖包
  • 2.BERT预训练模型下载
    • (一)模型原理
    • (二)预训练模型获取
  • 3.BERT模型实战操作
    • 3.1预处理
    • 3.2随机生成数据
    • 3.3用预训练模型生成词向量
    • 3.4文本聚类 ⭐

1.环境配置

(一)安装:anaconda

1. 理解:为什么需要anaconda

不同的python版本适应与相应的依赖包,可以用ANACONDA来管理不同的python版本环境,需要用到哪个环境就调用哪个环境。

本人最常用的就是一个Py3.6的包,这个包很多的版本的库都兼容,但是由于新的出来,一些最新的库已经开始不适配3.6

此前有次,自己的原生代码,在生成WordCloud词云时,从来都不会报错,会出现一个字体的错误。一直没解决,用了很多方法都没解决,后面发现是不适配3.6版本。所以在anaconda中可以再生成一个更高版本的环境。

可以专门用一个python版本,解决相应的问题。

2. 下载anaconda

anaconda下载地址

下载好,双击安装,一直下一步
在这里插入图片描述

3. 启动anaconda

在开始菜单,找到anaconda powershell prompt,输入conda,有输出即可

这样我们就有了管理python版本、依赖包版本

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/45723.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Flask从入门到精通:第八课:ORM、Flask-SQLAlchemy】

ORM ORM 全拼Object-Relation Mapping,中文意为 对象-关系映射。主要实现模型对象到关系数据库数据的映射。 ORM提供了一种面向对象操作数据库的方式给开发者。不需要编写原生SQL语句也能操作数据库,实现了业务代码与底层数据的解耦。 优点&#xff1…

Linux rpm打包(rpmbuild、spec文件)(rpmlint)(Red Hat Package Manager)(rpm包制作、安装包制作)

文章目录 RPM 打包概述定义与重要性核心组件- rpm:基本命令行工具,用于安装、查询、验证和卸载RPM包。- rpmbuild:用于构建 RPM 软件包的工具。- spec 文件:定义了如何构建 RPM 包的脚本,包括包描述、版本、构建指令等…

硬件产品经理:电子产品加工成本

目录 1、板材费用 2、SMT、THT加工 3、组装费 4、测试费 电子产品的加工主体可以分为四个大的部分: 1、板材费用 首选就是PCB的板材费用,一般是按照平米计算的,普通双层板是400左右/平米。 量产会更便宜一些。 如果沉金或其他加工工艺,成本会增加不少。 2、SMT、THT加工…

Milvus 核心设计 (4) ---- metric及index原理详解与示例(2)

目录 背景 Binary Embedding 定义与特点 常见算法 应用场景 距离丈量的方式 Jaccard Hamming 代码实现 Index BIN_FLAT BIN_IVF_FLAT Sparse embeddings 定义 应用场景 优点 实现方式 距离丈量方式 IP Index SPARSE_INVERTED_INDEX 应用场景 优势 SPAR…

零信任的架构结合模块化沙箱,实现一机两用的解决方案

零信任沙箱是深信达提出的一种数据安全解决方案,它将零信任原则与SDC沙箱技术的优势相结合。零信任原则是一种安全概念,核心思想是“永不信任,总是验证”。它要求对每一个访问请求都进行严格的身份验证和授权,无论请求来源于内部还…

从RL的专业角度解惑 instruct GPT的目标函数

作为早期chatGPT背后的核心技术,instruct GPT一直被业界奉为里程碑式的著作。但是这篇论文关于RL的部分确写的非常模糊,几乎一笔带过。当我们去仔细审查它的目标函数的时候,心中不免有诸多困惑。特别是作者提到用PPO来做强化学习,…

【微信小程序知识点】手机号验证组件

手机验证组件,用于帮助开发者向用户发起手机号申请,必须经过用户同意后,才能获得由平台验证后的手机号,进而为用户提供相应的服务。 手机号验证组件分为两种:手机号快速验证组件以及手机号实时验证组件。 1.手机号快速…

【微信小程序知识点】自定义构建npm

在实际开发中,随着项目的功能越来越多,项目越来越复杂,文件目录也变得很繁琐,为了方便进行项目的开发,开发人员通常会对目录结构进行优化调整,例如:将小程序源码放到miniprogram目录下。 &…

【C++】使用gtest做单元测试框架写单元测试

本文主要介绍在将gtest框架引入到项目里过程中遇到的问题。 我的需求如下: 用CMake构建项目。我要写一些测试程序验证某些功能,但是不想每一个测试都新建一个main函数。 因为新建一个main函数就要在CMakeList.txt里增加一个project,非常不方便。 于是我搜了下,C++里有没…

Portainer工具

Portainer是一款免费、开源的Docker的图形化管理工具,其能够提供状态显示面板、应用模板快速部署、容器镜像网络数据卷的基本操作(包括上传下载镜像,创建容器等操作)、事件日志显示、容器控制台操作、Swarm集群和服务等集中管理和…

深入理解JS中的闭包

闭包是JavaScript中一个非常强大的特性,它允许函数访问并操作函数外部的变量。在深入理解闭包之前,我们需要先了解JavaScript的作用域和作用域链的概念。 1、作用域和作用域链 在JavaScript中,作用域决定了代码块中变量和其他资源的可见性。…

Flink实时开发添加水印的案例分析

在Flink中,处理时间序列数据时,通常需要考虑事件时间和水印(watermarks)的处理。以下是修改前后的代码对比分析: 修改前的代码: val systemDS unitDS.map(dp > {dp.setDeviceCode(DeviceCodeEnum.fro…

Macos 远程登录 Ubuntu22.04 桌面

这里使用的桌面程序为 xfce, 而 gnome 桌面则测试失败。 1,安装 在ubuntu上,安装 vnc server与桌面程序xfce sudo apt install xfce4 xfce4-goodies tightvncserver 2,第一次启动和配置 $ tightvncserver :1 设置密码。 然后修改配置&#xff1a…

JVM 之对象的结构与创建

1.对象的创建 1.1类加载 当Java 虚拟机遇到一条字节码 new 指令时,首先将去检查这个指令的参数是否能在常量池中定位到 一个类的符号引用,并且检查这个符号引用代表的类是否已被加载、解析和初始化过。如果没有,那 必须先执行相应的类加载过…

Python MySQL 教程

Python MySQL 教程 引言 Python 是一种广泛使用的高级编程语言,以其简洁明了的语法和强大的功能而闻名。MySQL 是一种流行的开源关系数据库管理系统 (RDBMS),广泛用于各种应用程序,包括数据密集型 Web 应用程序。Python MySQL 教程将指导您如何使用 Python 语言与 MySQL 数…

C# .net6使用Hangfire

首先我们先来了解什么是Hangfire? Hangfire 是一个用于 .NET 的任务调度库,允许你在后台运行任务,而不需要依赖外部的任务队列服务或复杂的基础设施。它简化了后台任务的创建、调度和管理过程,使得在 .NET 应用程序中处理长期运行…

flutter Android端权限

flutter 中权限请求path_provider Android 6.0 - 10.0 (API level 23 - 29)Android 11 (API level 30)具体实现示例注意事项 在 Flutter 中使用 path_provider 插件获取除本应用外所有的 PDF 文件,对于不同的 Android 版本(从 Android 6.0 到 Android 14…

我不是一个人在战斗

这也是一个老生常谈的话题,但很多人还是出不出单兵作战的怪圈,不断让单兵作战的孤独感、团队协作的无助感困惑自己,困惑整个团队,造成心气一直不高,严重影响工作效率。对此我还是坚持去年的观点:坚持宽松、…

【系统架构设计】操作系统(一)

操作系统(一) 操作系统的类型和结构操作系统基本原理进程管理进程三态模型挂起状态进程互斥 / 进程同步前趋图进程调度死锁 存储管理设备管理文件管理作业管理 操作系统原理的关键在于“一个观点、两条线索”:一个观点是以资源管理的观点来定…

简谈设计模式之代理模式

代理模式是一种结构型设计模式, 主要用于为其他对象提供一种代理, 以控制对这个对象的访问. 代理模式可以在不修改目标对象的前提下, 通过代理对象在访问目标对象之前或之后增加额外的操作 代理模式结构 抽象主题: 定义了真实主题和代理的共同接口, 这样客户端就可以通过接口…