Resumo da Extração
Três categorias de arquivos estavam pendentes. Todas foram processadas com sucesso usando ferramentas compatíveis com Windows.
#1 — WebArchive (dados)
[dados] tabela-cuidasm-perfil-socioeconomico-participantes.webarchive
Formato: Apple WebArchive (bplist)
Status anterior: Bloqueado (requer macOS)
Status atual: EXTRAÍDO PARCIALMENTE — página PLOS One recuperada, mas tabela carregada via JavaScript não está embutida no arquivo
⚠ Parcial
Status anterior: Bloqueado (requer macOS)
Status atual: EXTRAÍDO PARCIALMENTE — página PLOS One recuperada, mas tabela carregada via JavaScript não está embutida no arquivo
#2 — WebArchive (guia-oms)
[guia-oms] centros-saude-mental-comunitaria-abordagens-direitos.webarchive
Formato: Apple WebArchive (bplist)
Status anterior: Bloqueado (requer macOS)
Status atual: EXTRAÍDO COM SUCESSO — 420 linhas de texto, confirmado duplicata do PDF P3-02
✓ Sucesso
Status anterior: Bloqueado (requer macOS)
Status atual: EXTRAÍDO COM SUCESSO — 420 linhas de texto, confirmado duplicata do PDF P3-02
#3 — PPTX (raiz)
Paz-Equilibrio-Saude-Mental.pptx + Paz-Equilibrio-Saude-Mental2.pptx + oficina-sm-completa-partes4-7.pptx
Formato: PPTX
Status anterior: Não processados (fora de materiais-entrada)
Status atual: EXTRAÍDO COM SUCESSO — 67+67+N slides
✓ Sucesso
Status anterior: Não processados (fora de materiais-entrada)
Status atual: EXTRAÍDO COM SUCESSO — 67+67+N slides
Método Utilizado
WebArchive (bplist)
- Ferramenta:
plistlib(biblioteca padrão Python 3.14 — não requer macOS) - Processo: Leitura do binary plist → acesso a
WebMainResource.WebResourceData→ decodificação UTF-8 → extração de texto via regex (remoção de tags HTML, scripts, CSS) - Resultado: Formato bplist é legível no Windows via
plistlib. A limitação do CuidaSM não é do formato, mas do conteúdo: a tabela original era carregada dinamicamente via JavaScript no site da PLOS One e não foi capturada no webarchive.
PPTX (raiz do projeto)
- Ferramenta:
python-pptx - Processo: Iteração por slides → extração de texto de todos os shapes → salvamento em
.txt - Resultado: Conteúdo integral recuperado de todos os 3 arquivos.
Arquivos Gerados
| Arquivo Original | Arquivo Extraído | Localização |
|---|---|---|
| [dados] tabela-cuidasm-perfil-socioeconomico-participantes.webarchive | [dados] tabela-cuidasm-perfil-socioeconomico-participantes.txt | materiais-entrada/docs/ |
| [guia-oms] centros-saude-mental-comunitaria-abordagens-direitos.webarchive | [guia-oms] centros-saude-mental-comunitaria-abordagens-direitos.txt | materiais-entrada/docs/ |
| Paz-Equilibrio-Saude-Mental.pptx | Paz-Equilibrio-Saude-Mental.txt | materiais-entrada/apresentacoes/ |
| Paz-Equilibrio-Saude-Mental2.pptx | Paz-Equilibrio-Saude-Mental2.txt | materiais-entrada/apresentacoes/ |
| oficina-sm-completa-partes4-7.pptx | oficina-sm-completa-partes4-7.txt | materiais-entrada/apresentacoes/ |
Análise do Conteúdo Extraído
1. CuidaSM (PLOS One — Table 2)
- Referência: Teixeira de Mendonça JM, Freire de Sousa AA, Eshriqui I, et al. Brazilian scale for evaluation of mental health care needs (CuidaSM): evidence of validity in primary health care. PLOS One. 2025. DOI:
10.1371/journal.pone.0323833 - Conteúdo recuperável: Título da tabela, DOI, nome da revista. Tabela com dados numéricos não embutida no webarchive.
- Dado do artigo: 879 usuários de APS; média de idade 45,0 anos (±16,7).
- Recomendação: Baixar PDF via DOI.
2. Guia OMS — Centros de Saúde Mental Comunitária
- Conteúdo: Texto integral do documento OMS. Confirmado como duplicata do PDF P3-02.
- Status: Nenhum conteúdo novo.
3. Apresentações PPTX (Raiz)
- Paz-Equilibrio-Saude-Mental.pptx (67 slides): Apresentação principal da oficina — 5 blocos teóricos + oficinas.
- Paz-Equilibrio-Saude-Mental2.pptx (67 slides): Versão revisada/alternativa.
- oficina-sm-completa-partes4-7.pptx: Segmento complementar — partes 4 a 7.