README.md

Arquivo

https://arquivo.inovatec.pt

A aplicação web de arquivos é desenvolvida na framework Django, assente na linguagem de programação Python. Para base de dados utiliza-se PostgreSQL, armanzenando ficheiros (PDFs e imagens) numa máquina virtual, correndo Caddy, para possibilitar serviços HTTP.

Serviço utilizadoss
Fly.io: deployments da aplicação web, com recursos a Docker
DigitalOcean Managed PostgreSQL Database: serviço para alojamento da base de dados
AlphaVPS: aluguer de uma Storage VPS com 1TB de espaço

Código e colaboração são assegurados via utilização de um repositório privado no GitHub.

Funcionalidades

O objectivo principal da aplicação web é possibilitar uma pesquisa rápida de termos num grande volume de jornais. Actualmente existem na base de dados ~7.171 edições de jornais, de duas publicações, com um total de 28.624 páginas e 174.602 colunas.

A pesquisa permite ser efectuada por termos singulares, ou por termos compostos, colocando-os entre aspas (""). Para a pesquisa ser rápida, o texto na base de dados foi convertido em vectores, para indexar o texto e possibilitar uma pesquisa efeciente em termos de performance.

Na pesquisa existem as seguintes opções:

  • escolha de intervalo de anos
  • mostrar estatísticas
  • número de resultados a mostrar

Cada página de pesquisa é partilhável, tendo um URL único. Nos excertos é efectuado um destaque dos termos procurados, e em cada resultado de pesquisa existe a possibilidade de:

  • mostrar o texto completo dessa coluna da página
  • carregar na imagem e ir ver a edição completa e que o termo está integrado

Além da pesquisa é possível uma navegação temporal pelas edições disponibilizadas, abrindo os respectivos PDFs e sendo possível também pesquisar dentro deles.

A aplicação web está desenvolvida para ser possível a utilização em dispositivos móveis.