一、说明
使用BERT,UMAP和HDBSCAN捕获文档主题,紧随最先进的BERTopic架构(transformer编码器)。
主题检测是一项 NLP 任务,旨在从文本文档语料库中提取全局“主题”。例如,如果正在查看书籍描述的数据集,主题检测将使我们能够将书籍分类,例如:“浪漫”、“科幻”、“旅行”等。
在本教程中,我们将使用BERT的HuggingFace库实现以及用于聚类的HDBSCAN和用于降维的UMAP来实现。该管道将遵循Maarten Grootendorst提出的BERTopic结构:
伯特皮克管道
二、开始实践
为了简单起见,我建议在Google Coolab中运行代码,但另一个平台也很好。
首先安装必要的依赖项:
!pip install pandas numpy umap-learn transformers plotly hdbscan
然后继续加载输入数据:
import pandas as pd
data = pd.read_csv("ecommerce.csv", on_bad_lines='skip', nrows=500)
data = data[[""]]
在我们的示例中,数据对应于从 Kagg