从 HTML 文件中提取文本内容是数据抓取中的一个常见任务,你可以将提取的文本信息用于编制报告、进行数据分析或其他处理。本文分享如何使用免费 Java API 从HTML 文件中提取文本内容。
安装免费Java库:
要通过Java提取HTML文本,需要用到Free Spire.Doc for Java免费库。以下提供两种安装方式:
1. 通过Maven仓库安装:
<repositories><repository><id>com.e-iceblue</id><name>e-iceblue</name><url>https://repo.e-iceblue.cn/repository/maven-public/</url></repository>
</repositories>
<dependency><groupId>e-iceblue</groupId><artifactId>spire.doc.free</artifactId><version>5.2.0</version>
</dependency>
2. 下载Free Spire.Doc for Java库,解压后手动将Spire.Doc.jar添加到程序中。
使用Java从HTML文件中提取文本内容
基本步骤:
- 导入需要的类库;
- 通过 loadFromFile() 方法加载HTML文件;
- 通过 getText() 方法获取HTML文件中的文本内容。
- 创建一个 FileWriter 对象,将提取的文本内容写入一个txt文件中
示例代码:
import com.spire.doc.Document;
import com.spire.doc.FileFormat;import java.io.FileWriter;
import java.io.IOException;public class ExtractTextFromHTML {public static void main(String[] args) throws IOException {//创建Document对象Document doc = new Document();//加载一个HTML文件doc.loadFromFile("input.html", FileFormat.Html);//获取HTML文件中的文本String text = doc.getText();//将文本写入TXT文件FileWriter fileWriter = new FileWriter("提取HTML文本.txt");fileWriter.write(text);fileWriter.close();}
}
运行结果 :
参考文章:
Java: Extract Text from HTMLUse Spire.Doc for Java to extract text from an HTML file or a URL easily, without the need for any third-party libraries.https://www.e-iceblue.com/Tutorials/Java/Spire.Doc-for-Java/Program-Guide/Conversion/Java-Extract-Text-from-HTML.html在实际应用中,有问题可前往论坛讨论。