我们选取一篇文献,将文献PDF转换成图片,然后采用pytesseract 实现图片文字识别。
import requests
import pdf2image
import pytesseractpdf = requests.get('https://arxiv.org/pdf/2110.03526.pdf')
doc = pdf2image.convert_from_bytes(pdf.content)# Get the article text
article = []
for page_number, page_data in enumerate(doc