/r/opendata_pt
In this subreddit you can find news and discussions related to open data in Portugal.
Neste subreddit pode encontrar notícias e discussões relacionados com dados abertos em Portugal.
Preferimos o português mas esteja à vontade para usar inglês se isso melhorar a sua capacidade de comunicar.
In this subreddit you can find news and discussions related to open data in Portugal.
We prefer portuguese, but feel free to use English if it improves your ability to communicate.
/r/opendata_pt
Alguém conhece um repositório aberto acerca de greves, datas, promotores, etc.?
Ao longo dos anos têm aparecido uma boa quantidade de pessoas interessadas em obter o corpo da legislação portuguesa. Por isso, desde 2014, exporto o conteúdo (útil) do dre.tretas.org para JSON (apenas meta dados) e faço um dump PostgreSQL (meta dados e texto dos documentos como é obtido do dre.pt).
Apesar de ter documentado o processo, a utilização dos dados não é propriamente simples.
Com vista a simplificar o processo decidi exportar também para uma base de dados SQLite (meta dados, texto dos documentos e tabela de ligação entre documentos).
alguém tem disponível data com a referenciação das coordenadas GPS das escolas em PT?
Alguém sabe onde se pode arranjar um ficheiro shapefile (ou similar) das paróquias/vigararias/dioceses em Portugal?
A ideia é trabalhar estes dados em mapas
Olá e feliz 2024 a todos!
Nos últimos meses tenho andado a extrair os dados em tempo real da explore.porto.pt. Os dados permitem identificar quais os autocarros prestes a chegar a cada paragem e com isto analisar atrasos (e pelo que tenho visto, autocarros que nunca apareceram).
Penso que os dados podiam ser relevantes para a comunidade mas como é um dataset enorme (cerca de 18 milhões de registos por dia) estou à procura de alguma plataforma/entidade que os possa hospedar e partilhar. Estava a considerar falar com a AWS e tentar juntar-me ao programa de Open datasets ou entrar em contacto com a pordata.
Alguém me pode dar uma ajuda?
Olá caros colegas Gostaria de saber se existe alguma base de dados aberta sobre saúde em Portugal sou do Brasil e pesquiso sobre tuberculose teria alguma base para me indicar penso em fazer uma pesquisa comparando dados do Brasil com Portugal
Isto é um pouco off-topic para este sub mas de forma indirecta o principio "dinheiro público, código público" permite um acesso de muito melhor qualidade aos dados públicos.
Assim estes pequenos passos são sempre de louvar. Pode ser que, daqui a uns anos, isto chegue a Portugal.
Agora não tenho tempo para fazer uma análise mais aprofundada. O site é novo, temos JSON em todo o lado... Pelo que já vi até encapsulamos JSON dentro de JSON! Sempre obtidos com métodos POST para ser tudo mais divertido.
Os links antigos continua a funcionar o que é bom.
Tenho de decidir se mantenho a minha cópia. Há uns quantos motivos para permanecer:
Por outro lado o servidor onde isto mora tem 8 anos, o site oficial já responde às necessidades, gasto umas horas por ano a manter o site e, claro, não ganho nada com isto.
Têm opinião quanto a isto?
Edit I: Fui ver quanto custou este novo site, penso que corresponderá a estes contratos. O que dá um total de 1.695.743,83 EUR. Penso que isto inclui desenvolvimento.
Edit 2: Para quem quiser obter os dados do dre.pt, o processo é simples quanto baste:
#!/bin/bash
URL=https://dre.pt/dre/screenservices/DRE/Home/Serie1/DataActionGetData
CSRFTOKEN="NECESSARIO"
REQUEST=./request_index.json
wget \
--quiet \
--output-document=- \
--header="content-type: application/json; charset=utf-8" \
--header="X-CSRFToken: ${CSRFTOKEN}" \
--post-file=${REQUEST} \
${URL} | jq ".data.ClobResult" | tr '\"' '"' | sed -e 's/\\"/"/g' -e 's/\\\\/\\/g' -e 's/^"//' -e 's/"$//' | jq .
Isto dá resultados deste tipo.
Evidentemente que deveríamos ter uma API pública para isto (pelo menos para obtenção dos dados, mas poderia tb incluir busca). Esta API poderia ser paga para fins comerciais.
Não me vou pronunciar sobre o (não) seguimento das boas práticas no site, é frustrante. É o que temos.
Edit 3: Na realidade não é necessário obter tanto os cookies da sessão como o CSFRToken. Assim para obter a informação do site apenas temos de descobrir o "payload" dos "POST requests" e eventualmente limpar o lixo que têm a mais. Modifiquei o scraper do dre.tretas.org para o novo site , uso os seguintes endpoints:
Lista de DRs editados numa dada data:
Lista de documentos de um dado DR:
Conteúdo de um dado documento:
https://dre.pt/dre/screenservices/DRE/Legislacao_Conteudos/Conteudo_Detalhe/DataActionGetConteudo2
Notem, para obter um dado diploma temos de usar o "DipLegisId" mas se desejarem obter concursos públicos temos de usar o "ContPubId".
Todos estes endpoints aceitam POST requests, os parâmetros são passados via JSON. Parece que se passa uma parte do estado da aplicação em cada pedido. Não me dei ao trabalho de descobrir quais desses parâmetros são lixo e quais são necessários. Podem ver os payloads que uso aqui.
Posto isto tudo, dei por mim a pensar que se calhar fazia sentido criar uma API pública de consulta, básica numa primeira fase (por exemplo com um único endpoint /api/json/diarios/<dia>
), que depois logo se expandia a outras queries, e que utilizasse o scraper que já existe, para alimentar uma BD, consumida pelo(s) endpoint(s).
Não sei bem se tenho uma pergunta aqui ou se estou a publicar isto só mesmo para conversar com quem ache isto relevante, mas seja como for, as minhas dúvidas neste momento (se isto existir, sempre open source, e se funcionar bem, claro) são por exemplo:
a) Políticas - Vou levar com os fornecedores do Estado (Microsofts, Oracles, consultoras várias) a gamar o código e fechá-lo numa solução proprietária? Sendo open source, claro que qualquer pessoa pode usar, mas a GPLv2, por exemplo, limita a "proprietarização" das "obras derivadas". Na volta, para alguém se meter em litígios de GPL, em Portugal, só se for doido varrido.
b) Práticas - Imagine-se que funciona bem, e que um número considerável de plataformas usa essa API. Um dia eu sou atropelado pelo 51, ou farto-me disto, ou sai-me ou Euromilhões, ou qualquer coisa me impede de continuar. Ou então, imagine-se que funciona melhor do que bem e, de um dia para o outro, o site é slashdotted e os servidores resolvem sentar-se e fazer um manguito a todos os visitantes.
c) "Administrativas", vá - Será que vale a pena falar com alguém do "Estado" (nem sei bem quem, AMA? Outros?), para ver se existe alguma possibilidade de apoiarem isto oficialmente, ou é para esquecer? Note-se que não tenho medo de pitches e PowerPoints, é na boa, mas se é para gastar anos da minha vida e não chegar a lado nenhum, então qsf.
Há mais, claro. Na volta estou na dúvida se faço e siga a marinha, gastando tempo e €s de um projecto que não me vai pagar isso.
Obrigado.
Alguém tem conhecimento de algum repositório público ou alguma forma de obter a lista das empresas em Portugal?
Estou a escrever isto aqui porque os autores do site andam por aqui, mas posso fazer a pergunta em privado se for mais adequado.
Estive a ver os dados disponíveis para download no site (cerca de 70M). Do esquema ali apresentado, parece que apenas é guardado o tema e não todo o conteúdo. No entanto, ao pesquisar no site, encontrei resultados que vêm dos conteúdos. O que é que se passa?
Obrigado desde já por quem tiver disponibilidade para responder.
Faz sentido os comentários estarem fechados nas publicações mais antigas deste reddit? Dado ser uma espécie de fórum e ter poucos comentadores (e por isso imagino, pouco spam).
O que aconteceu ao publicos.pt? É um site de finanças, agora?
Boas malta, já tinha comentado sobre isto num post aqui há dias. No entanto achei que seria melhor um post dedicado.
Fiz uma API para a extração de notícias do Público (tanto por tópicos, como por URL(s)) para formato JSON, e queria partilhá-la visto que pode ser útil para alguém (ex: fins académicos).
Planeio ainda incluir mais jornais ao longo do tempo.
Deixo então aqui o link: https://pt-news-extractor.herokuapp.com/api/v1/
Podem ainda contribuir para o "projeto" com sugestões através do GitHub: https://github.com/spamz23/PT-NEWS_EXTRACTOR
EDIT:
Estou à procura de dados relativos à composição das florestas em Portugal - percentagem de eucaliptos, pinheiros, etc. Queria algo por localização de forma a procurar alguma correlação entre a composição e os incêndios anuais. Alguém sabe de algum repositório com estas informações? centraldedados.pt tem incêndios até 2015 e nada de florestas.
Há cerca de dois anos criei este repositório com uma listagem de dados públicos em Portugal mas só hoje é que descobri o r/opendata_pt 🙈
https://github.com/rgllm/awesome-portugal-data
Qualquer contribuição é bem-vinda 😄
Boa tarde.
No âmbito de modernizar a democracia portuguesa, estou a trabalhar numa tentativa de agrupar e "informatizar" a legislação portuguesa.
Um dos primeiros passos foi fazer download da série I toda do Diário da república e, fiz-lo por mais duas razões:
Como tal, apresento 2 coisas:
parte I - [1910 - 1939] - https://drive.google.com/drive/folders/1NA_gYNwnrr2pLGpIb9hDSBSnLlrkiPl6?usp=sharing
parte II - [1940 - 1987] - https://drive.google.com/drive/folders/1E-Y3HH3DSomf2u4kKGklzBHEWWuqp6dp?usp=sharing
parte III - [1988 - 2019] - https://drive.google.com/drive/folders/17W2atI0QoBceXU-T1-cRU8Q5k7QNOL09?usp=sharing
parte IV - [2020 - ?] - https://drive.google.com/drive/folders/1V9RmiehRZn2OZKbe1o7qYs5Q_mO4EbN6?usp=sharing
deixo um exemplo de uma lei em .json https://pastebin.com/LxnDrcmp
Boas, estou a desenvolver uma app e queria ter uma secção de notícias de Portugal. O problema é que tanto a NewsAPI como muitas outras opções que tenho visto na net não funcionam muito bem para Portugal, maioritariamente o pt-PT vem junto do pt-BR. Alguma sugestão de api’s que retorne preferencialmente o título, publish date, thumbnail e o content?
P.S: até que ponto é legal fazer scraping ao Google news?
Olá a todos,
Tendo em conta a actual situação de alerta relacionada com o coronavirus, tentei procurar se existia alguma base de dados aberta com informações sobre os casos portugueses, para poder indo acompanhar a evolução do virus no nosso país com mais detalhe. O DGS publica diariamente um relatorio de situação aqui em formato pdf, com dados bastante pertinentes (idades, sintomas,casos suspeitos). Tenho estado a fazer scraping destes pdf, mas quase todos os dias mudam de formato e muitas vezes torna-se mesmo impossivel extrair o texto.
Alguém a fazer algo parecido que tenha arranjado um maneira mais "buletproof" para arranjar este tipo de dados (para Portugal)? Não tenho conhecimento de mais ninguém a publicar este tipo de dados...
Obrigado pela atenção e eventual ajuda