/r/q?req.query.q -- Subreddit Search

706 Subscribers

Mapeamento sistemico

Olá estamos a desenvolver uma app para mapear de forma sistémica entidades em portugal.

Queria, nesta fase retirar dados dos actos públicos no DRE, estou a ter dificuldades. Alguém pode ajudar ?

Já olhei para o código do Tretas https://dre.tretas.org/. Neste momento estou só a montar um script pyton para extração e não estou a conseguir resolver o payload correctamente.

Tem que se ter ? (estou a implementar uma função para obter)

Preciso de login ?

        "x-csrftoken": cookies.get("X-CSRFToken", "")

4 Comments

2025/01/09
10:37 UTC

presidentes de câmara

alguém conhece um dataset de todos os presidentes de câmara atuais?

2 Comments

2024/12/19
10:35 UTC

repositório Greves

Alguém conhece um repositório aberto acerca de greves, datas, promotores, etc.?

0 Comments

2024/11/04
19:22 UTC

Corpo da legislação portuguesa em SQLite

Ao longo dos anos têm aparecido uma boa quantidade de pessoas interessadas em obter o corpo da legislação portuguesa. Por isso, desde 2014, exporto o conteúdo (útil) do dre.tretas.org para JSON (apenas meta dados) e faço um dump PostgreSQL (meta dados e texto dos documentos como é obtido do dre.pt).

Apesar de ter documentado o processo, a utilização dos dados não é propriamente simples.

Com vista a simplificar o processo decidi exportar também para uma base de dados SQLite (meta dados, texto dos documentos e tabela de ligação entre documentos).

Podem obter o ficheiro aqui;
Documentação dos dados exportados;
Página no dre.tretas.org sobre a disponibilização destes dados.

0 Comments

2024/06/16
23:10 UTC

dados GPS

alguém tem disponível data com a referenciação das coordenadas GPS das escolas em PT?

7 Comments

2024/06/15
16:18 UTC

Mapas de paróquias/vigararias/dioceses

Alguém sabe onde se pode arranjar um ficheiro shapefile (ou similar) das paróquias/vigararias/dioceses em Portugal?

A ideia é trabalhar estes dados em mapas

0 Comments

2024/04/10
21:41 UTC

Dados tempo real transportes públicos do Porto. Onde posso publicar?

Olá e feliz 2024 a todos!

Nos últimos meses tenho andado a extrair os dados em tempo real da explore.porto.pt. Os dados permitem identificar quais os autocarros prestes a chegar a cada paragem e com isto analisar atrasos (e pelo que tenho visto, autocarros que nunca apareceram).

Penso que os dados podiam ser relevantes para a comunidade mas como é um dataset enorme (cerca de 18 milhões de registos por dia) estou à procura de alguma plataforma/entidade que os possa hospedar e partilhar. Estava a considerar falar com a AWS e tentar juntar-me ao programa de Open datasets ou entrar em contacto com a pordata.

Alguém me pode dar uma ajuda?

6 Comments

2024/01/01
16:47 UTC

Dados abertos em saúde

Olá caros colegas Gostaria de saber se existe alguma base de dados aberta sobre saúde em Portugal sou do Brasil e pesquiso sobre tuberculose teria alguma base para me indicar penso em fazer uma pesquisa comparando dados do Brasil com Portugal

2 Comments

2023/10/15
22:39 UTC

O acordo de coligação do novo governo alemão aborda o princípio "dinheiro público, código público"

Isto é um pouco off-topic para este sub mas de forma indirecta o principio "dinheiro público, código público" permite um acesso de muito melhor qualidade aos dados públicos.

Assim estes pequenos passos são sempre de louvar. Pode ser que, daqui a uns anos, isto chegue a Portugal.

0 Comments

2021/11/30
10:55 UTC

Novo site "dre.pt"

Agora não tenho tempo para fazer uma análise mais aprofundada. O site é novo, temos JSON em todo o lado... Pelo que já vi até encapsulamos JSON dentro de JSON! Sempre obtidos com métodos POST para ser tudo mais divertido.

Os links antigos continua a funcionar o que é bom.

Tenho de decidir se mantenho a minha cópia. Há uns quantos motivos para permanecer:

Continua com bastantes visitas (10 a 15 mil visitas diárias, umas 30 a 90 mil páginas diárias - receio que haja aqui uns quantos bots, tento retirar o máximo, mas são uma praga);
Proporciono um serviço ao dre.pt (que não foi pedido) para facilitar a indexação das respectivas páginas. No site antigo apenas era possível chegar à legislação antiga através de uma busca, por isso os motores de busca não conseguiam indexar o site, reparei nisso e comecei, há uns anos, a ligar cada documento no meu site ao documento respectivo no dre.pt. Tenho de ver se isto é necessário no novo site;
Tenho uns quantos utilizadores dos feeds RSS (funcionam com busca, se quiserem um feed só de concursos públicos é possível, por exemplo);
Disponibilizo um dump com a legislação completa.

Por outro lado o servidor onde isto mora tem 8 anos, o site oficial já responde às necessidades, gasto umas horas por ano a manter o site e, claro, não ganho nada com isto.

Têm opinião quanto a isto?

Edit I: Fui ver quanto custou este novo site, penso que corresponderá a estes contratos. O que dá um total de 1.695.743,83 EUR. Penso que isto inclui desenvolvimento.

Edit 2: Para quem quiser obter os dados do dre.pt, o processo é simples quanto baste:

#!/bin/bash

URL=https://dre.pt/dre/screenservices/DRE/Home/Serie1/DataActionGetData
CSRFTOKEN="NECESSARIO"
REQUEST=./request_index.json
wget \
    --quiet \
    --output-document=- \
    --header="content-type: application/json; charset=utf-8" \
    --header="X-CSRFToken: ${CSRFTOKEN}" \
    --post-file=${REQUEST} \
    ${URL} | jq ".data.ClobResult" | tr '\"' '"' | sed -e 's/\\"/"/g' -e 's/\\\\/\\/g' -e 's/^"//' -e 's/"$//' | jq .

Isto dá resultados deste tipo.

Evidentemente que deveríamos ter uma API pública para isto (pelo menos para obtenção dos dados, mas poderia tb incluir busca). Esta API poderia ser paga para fins comerciais.

Não me vou pronunciar sobre o (não) seguimento das boas práticas no site, é frustrante. É o que temos.

Edit 3: Na realidade não é necessário obter tanto os cookies da sessão como o CSFRToken. Assim para obter a informação do site apenas temos de descobrir o "payload" dos "POST requests" e eventualmente limpar o lixo que têm a mais. Modifiquei o scraper do dre.tretas.org para o novo site , uso os seguintes endpoints:

Lista de DRs editados numa dada data:
- https://www.dre.pt/dre/screenservices/DRE/Home/home/DataActionGetDRByDataCalendario
Lista de documentos de um dado DR:
- https://www.dre.pt/dre/screenservices/DRE/Legislacao_Conteudos/ListaDiplomas/DataActionGetDados
- Isto é bom pq não fazem paginação, se temos 200 documentos (ou mais) obtemos sempre a lista completa.
Conteúdo de um dado documento:
https://dre.pt/dre/screenservices/DRE/Legislacao_Conteudos/Conteudo_Detalhe/DataActionGetConteudo2
Notem, para obter um dado diploma temos de usar o "DipLegisId" mas se desejarem obter concursos públicos temos de usar o "ContPubId".

Todos estes endpoints aceitam POST requests, os parâmetros são passados via JSON. Parece que se passa uma parte do estado da aplicação em cada pedido. Não me dei ao trabalho de descobrir quais desses parâmetros são lixo e quais são necessários. Podem ver os payloads que uso aqui.

5 Comments

2021/11/03
11:45 UTC

Uma possível API para o DRE.PT?

Estou com um projecto em mãos que necessita de ler e armazenar os Diários da República todos os dias. Lê os do dia, incluindo todos os atributos e sumários, mas não o texto completo, só o link para lá (não é complicado juntar o texto também, mas a razão é economizar espaço do lado de cá).
Ora, pelo que tenho visto, não existe uma API que se possa consultar, o que dava um jeitão. Assim sendo, criei um scraper de HTML, que lê o markup que existe no dre.pt. Funciona bem, mas é claro que fazer scrapers de HTML faz-me sentir "sujo" :P, não é elegante, e muito menos "à prova de futuro"; não tenho maneira de saber se o markup mudou, a não ser quando o importador deixa de encontrar as tags de HTML. Odeio isto, mas é o que temos.
Está feito em PHP (por conveniência, é para uma instalação de WP, mas podia ser outra coisa qualquer), e o que faz, genéricamente, é transformar o HTML num DOM object (com simplehtmldom), que é mais fácil de manipular (nota: não está em repo público, mas há-de estar, em breve).

Posto isto tudo, dei por mim a pensar que se calhar fazia sentido criar uma API pública de consulta, básica numa primeira fase (por exemplo com um único endpoint /api/json/diarios/<dia>), que depois logo se expandia a outras queries, e que utilizasse o scraper que já existe, para alimentar uma BD, consumida pelo(s) endpoint(s).

Não sei bem se tenho uma pergunta aqui ou se estou a publicar isto só mesmo para conversar com quem ache isto relevante, mas seja como for, as minhas dúvidas neste momento (se isto existir, sempre open source, e se funcionar bem, claro) são por exemplo:

a) Políticas - Vou levar com os fornecedores do Estado (Microsofts, Oracles, consultoras várias) a gamar o código e fechá-lo numa solução proprietária? Sendo open source, claro que qualquer pessoa pode usar, mas a GPLv2, por exemplo, limita a "proprietarização" das "obras derivadas". Na volta, para alguém se meter em litígios de GPL, em Portugal, só se for doido varrido.

b) Práticas - Imagine-se que funciona bem, e que um número considerável de plataformas usa essa API. Um dia eu sou atropelado pelo 51, ou farto-me disto, ou sai-me ou Euromilhões, ou qualquer coisa me impede de continuar. Ou então, imagine-se que funciona melhor do que bem e, de um dia para o outro, o site é slashdotted e os servidores resolvem sentar-se e fazer um manguito a todos os visitantes.

c) "Administrativas", vá - Será que vale a pena falar com alguém do "Estado" (nem sei bem quem, AMA? Outros?), para ver se existe alguma possibilidade de apoiarem isto oficialmente, ou é para esquecer? Note-se que não tenho medo de pitches e PowerPoints, é na boa, mas se é para gastar anos da minha vida e não chegar a lado nenhum, então qsf.

Há mais, claro. Na volta estou na dúvida se faço e siga a marinha, gastando tempo e €s de um projecto que não me vai pagar isso.

Obrigado.

10 Comments

2021/04/30
15:19 UTC

Integração com Chave Móvel Digital

0 Comments

2021/01/26
15:33 UTC

Repositório empresas em Portugal

Alguém tem conhecimento de algum repositório público ou alguma forma de obter a lista das empresas em Portugal?

6 Comments

2020/11/27
17:14 UTC

Dados do dre.tretas.org

Estou a escrever isto aqui porque os autores do site andam por aqui, mas posso fazer a pergunta em privado se for mais adequado.

Estive a ver os dados disponíveis para download no site (cerca de 70M). Do esquema ali apresentado, parece que apenas é guardado o tema e não todo o conteúdo. No entanto, ao pesquisar no site, encontrei resultados que vêm dos conteúdos. O que é que se passa?

Obrigado desde já por quem tiver disponibilidade para responder.

6 Comments

2020/11/05
14:30 UTC

Comentários fechados em posts antigos

Faz sentido os comentários estarem fechados nas publicações mais antigas deste reddit? Dado ser uma espécie de fórum e ter poucos comentadores (e por isso imagino, pouco spam).

O que aconteceu ao publicos.pt? É um site de finanças, agora?

4 Comments

2020/11/03
22:23 UTC

API para extração de notícias de jornais portugueses

Boas malta, já tinha comentado sobre isto num post aqui há dias. No entanto achei que seria melhor um post dedicado.

Fiz uma API para a extração de notícias do Público (tanto por tópicos, como por URL(s)) para formato JSON, e queria partilhá-la visto que pode ser útil para alguém (ex: fins académicos).

Planeio ainda incluir mais jornais ao longo do tempo.

Deixo então aqui o link: https://pt-news-extractor.herokuapp.com/api/v1/

Podem ainda contribuir para o "projeto" com sugestões através do GitHub: https://github.com/spamz23/PT-NEWS_EXTRACTOR

EDIT:

Adicionada funcionalidade para pesquisar por palavra-chave no Público.

3 Comments

2020/08/09
22:23 UTC

Dados florestais

Estou à procura de dados relativos à composição das florestas em Portugal - percentagem de eucaliptos, pinheiros, etc. Queria algo por localização de forma a procurar alguma correlação entre a composição e os incêndios anuais. Alguém sabe de algum repositório com estas informações? centraldedados.pt tem incêndios até 2015 e nada de florestas.

1 Comment

2020/08/08
22:15 UTC

Awesome Portugal Data - Lista de APIs e dados públicos em Portugal

Há cerca de dois anos criei este repositório com uma listagem de dados públicos em Portugal mas só hoje é que descobri o r/opendata_pt 🙈

https://github.com/rgllm/awesome-portugal-data

Qualquer contribuição é bem-vinda 😄

3 Comments

2020/06/13
11:14 UTC

Backup da série I do Diário da República desde 1910 - hoje para download

Boa tarde.

No âmbito de modernizar a democracia portuguesa, estou a trabalhar numa tentativa de agrupar e "informatizar" a legislação portuguesa.

Um dos primeiros passos foi fazer download da série I toda do Diário da república e, fiz-lo por mais duas razões:

Nunca se sabe o futuro, pode eventualmente aparecer um regime qualquer que ataque a nossa democracia e como tal, ter ao máximo a nossa "identidade" que temos construído partilhada e disponível às pessoas, é uma forma de garantir a nossa independência.
Não gosto de ter um documento tão importante centralizado apenas num único sistema (dre.pt) e quero que o nosso legado tenha redundância

Como tal, apresento 2 coisas:

A lista dos links. Cada pasta tem uma subpasta com o ano e, cada pasta do ano tem como subpasta, os diários por número, sendo que dentro de cada pasta está o DR e os suplementos. (São 4 links porque o drive só deixa até 15GB gratuítos de armazenamento por conta, sendo o total entre 40 a 50GB)

parte I - [1910 - 1939] - https://drive.google.com/drive/folders/1NA_gYNwnrr2pLGpIb9hDSBSnLlrkiPl6?usp=sharing

parte II - [1940 - 1987] - https://drive.google.com/drive/folders/1E-Y3HH3DSomf2u4kKGklzBHEWWuqp6dp?usp=sharing

parte III - [1988 - 2019] - https://drive.google.com/drive/folders/17W2atI0QoBceXU-T1-cRU8Q5k7QNOL09?usp=sharing

parte IV - [2020 - ?] - https://drive.google.com/drive/folders/1V9RmiehRZn2OZKbe1o7qYs5Q_mO4EbN6?usp=sharing

Como podem constantar, está tudo em PDF, o próximo passo é então organizar num formato mais informático, sendo que será ou .xml ou .json

deixo um exemplo de uma lei em .json https://pastebin.com/LxnDrcmp

3 Comments

2020/06/12
18:59 UTC

API de notícias em português

Boas, estou a desenvolver uma app e queria ter uma secção de notícias de Portugal. O problema é que tanto a NewsAPI como muitas outras opções que tenho visto na net não funcionam muito bem para Portugal, maioritariamente o pt-PT vem junto do pt-BR. Alguma sugestão de api’s que retorne preferencialmente o título, publish date, thumbnail e o content?

P.S: até que ponto é legal fazer scraping ao Google news?

7 Comments

2020/06/09
09:23 UTC

Operação Serenata de Amor

0 Comments

2020/05/18
16:30 UTC

APIs públicas em Portugal

0 Comments

2020/05/10
14:26 UTC