Como Extrair Texto de PDFs e Imagens Usando OCR

Опубликовано: 29 Май 2026
на канале: HidalgoMM

2,016

Saudações moçada!

No vídeo, mostrei como importar imagens e PDFs, além de como extrair texto tanto de arquivos PDF quanto de imagens convertidas para texto usando a biblioteca PyTesseract (Python Tesseract-OCR). Com um bom resultado, eles estarão prontos para a identificação de dados específicos utilizando expressões regulares (biblioteca RegEx) - segue vídeo onde expliquei como fazer isso: • Extração de Texto em PDF e Processamento d... .
Também apresentei algumas funcionalidades do PyTesseract que podem ser úteis tanto para melhorar a identificação do texto como para realizar uma extração de dados mais inteligente. Tudo explicado de forma simples e prática!

O vídeo foi útil, te ajudou? Sabem, eu poderia estar hackeando, extorquindo e aplicando golpes, mas cá estou, gravando vídeos. Dá uma força aí, moçada, nem que seja com um único real. Segue Pix 🤑: 29e4e4f4-6982-45f9-959b-1c68b8eabb42

Deus abençoe e lhe retorne em triplo!

Segue alguns links úteis:

0. Meu linkedIn, vamos nos conectar!
/ hidalgomm

1. Arquivo utilizado no vídeo: https://pesquisa.in.gov.br/imprensa/jsp/vi...

2. Instalador do Tesseract-OCR:
https://github.com/UB-Mannheim/zotero-ocr

3. Documentação do Tesseract-OCR:
https://tesseract-ocr.github.io/

3.1. Um conteúdo bem bacana da documentação a se ver:
https://tesseract-ocr.github.io/tessdoc/Im...

4. Documentação PIL (Pillow): https://pillow.readthedocs.io/en/stable/re...

5. Documentação RegEx: https://docs.python.org/3/library/re.html

5.1. Como elaborar expressões regulares: https://docs.python.org/3/howto/regex.html

6. Chave Pix 🤑: 29e4e4f4-6982-45f9-959b-1c68b8eabb42