Saudações moçada!
No vídeo, mostrei como importar imagens e PDFs, além de como extrair texto tanto de arquivos PDF quanto de imagens convertidas para texto usando a biblioteca PyTesseract (Python Tesseract-OCR). Com um bom resultado, eles estarão prontos para a identificação de dados específicos utilizando expressões regulares (biblioteca RegEx) - segue vídeo onde expliquei como fazer isso: • Extração de Texto em PDF e Processamento d... .
Também apresentei algumas funcionalidades do PyTesseract que podem ser úteis tanto para melhorar a identificação do texto como para realizar uma extração de dados mais inteligente. Tudo explicado de forma simples e prática!
O vídeo foi útil, te ajudou? Sabem, eu poderia estar hackeando, extorquindo e aplicando golpes, mas cá estou, gravando vídeos. Dá uma força aí, moçada, nem que seja com um único real. Segue Pix 🤑: 29e4e4f4-6982-45f9-959b-1c68b8eabb42
Deus abençoe e lhe retorne em triplo!
Segue alguns links úteis:
0. Meu linkedIn, vamos nos conectar!
/ hidalgomm
1. Arquivo utilizado no vídeo: https://pesquisa.in.gov.br/imprensa/jsp/vi...
2. Instalador do Tesseract-OCR:
https://github.com/UB-Mannheim/zotero-ocr
3. Documentação do Tesseract-OCR:
https://tesseract-ocr.github.io/
3.1. Um conteúdo bem bacana da documentação a se ver:
https://tesseract-ocr.github.io/tessdoc/Im...
4. Documentação PIL (Pillow): https://pillow.readthedocs.io/en/stable/re...
5. Documentação RegEx: https://docs.python.org/3/library/re.html
5.1. Como elaborar expressões regulares: https://docs.python.org/3/howto/regex.html
6. Chave Pix 🤑: 29e4e4f4-6982-45f9-959b-1c68b8eabb42