Home

Awesome

Linguistic Datasets for Portuguese: conjuntos de dados linguísticos para português (pt-AO, pt-BR pt-MZ e pt-PT)

Lista de conjuntos de dados linguísticos para português com licenças flexíveis: banco de dados, lista de palavras, sinônimos, antônimos, dicionário temático, tesauro, linked data, semântica, ontologia e representação de conhecimento.

<blockquote><em lang="en"> (English description) List of linguistic datasets for Portuguese with flexible licenses: database, wordlist, synonyms, antonyms, thematic dictionaries, thesaurus, linked data, semantic, ontology and knowledge representation. </em></blockquote>

O objetivo desse projeto, inspirado pelo espírito de FOSS, é listar fontes de representações de conhecimento que, ao depender da língua e das culturas locais, não podem ser importadas. Requerem atenção especial, de caráter multidisciplinar, e que idealmente já deveria estar prontas e aceitavelmente validadas: quando não existem, na melhor das hipóteses, podem forçar serem feitas por não especialista e prejudicar qualidade, e na pior, até impedir a produção de tecnologias inovadoras.

<!-- Veja outras [justificativas da pertinência](#justificativa). --> <!-- Veja também [termos chave para inspirar pesquisas relacionadas](termos-chave.md). -->

Lista

Conjuntos de dados linguísticos requerem muito mais atenção e trabalho humano especializado do que tradicionalmente se vê em dados abertos. Pense em megabytes, não gigabytes. Boa parte dos conjuntos de dados listados são praticamente engenharia reversa da representação de conhecimento e que, mesmo sem usar licença específica mais para datasets (PDDL, CDLA, ODC, ...) tem uma licença em que você pode usar.

Conjunto de dadosDataLicençaEtiquetasDescrição
languagetool-org: regras PTativoLGPLv2.1(muitas-tags), pt-AO, pt-BR pt-MZ e pt-PTlanguagetool-org é verificador de estilo e gramática para mais de 25 idiomas
languagetool-org: falsos cognatosativoLGPLv2.1falsos-cognatos, traducaoFalsos cognatos (Inglês: false friends) são termos que parecem uma coisa, mas na verdade, são outra. Muito pertinente na tradução de textos
openWordnet-PTativoCC-BY-4.0wordnet, owl, rdf, sparql, pt-BROpenWordnet-PT: an open Brazilian Wordnet
Stopwords Portuguese (PT)2016-10-10Váriasstopwords, palavras-vaziasLista de listas de palavras-vazias com 560 termos únicos
VERO-pt-BR2013-12-17LGPLv3, MPLverificacao-ortografica, verificacao-gramatical, hifenizacao, libreoffice, openoffice, pt-BREspelho não-oficial da base de dados do VERO (VERificador Ortografico do LibreOffice)
DicSin pt-BR2010-05-28GPLv2?dicionario, sinonimo, antonimo, pt-BRDicSin: Dicionário de sinônimos e antônimos no idioma português brasileiro
br.ispell2003-03-25GPLv2dicionario, verificacao-ortografica, ispell, aspell, myspell, pt-BREspelho não-oficial dos dados de br.ispell

Pergunta em aberto: sabendo que conjunto de dados linguísticos são úteis para todos (principalmente o próprio governo e pequenas e médias empresas e organizações) o que pode ser feito com os que nem existem ou os que o uso mais comum implica em pirataria?

Lista de desejos

Aviso: a lista a seguir não foi revisada quanto a utilidade e viabilidade.

<!-- Essa abordagem é útil a curto prazo, porém o pensamento a médio e longo prazo poderia ativamente estimular que governos e universidades desenvolvam conjunto de dados úteis -->
EtiquetasInspiraçõesDescrição
afinn-111, analise-de-sentimentoAFINN-111, ENUma lista de palavras etiquetada com uma valência positiva ou negativa adaptada a um ou mais dialetos da língua portuguesa, que use como inspiração (não necessariamente uma tradução) do artigo A new ANEW: Evaluation of a word list for sentiment analysis in microblogs
analise-de-sentimento, sarcasmoMIT, emojis, bullyingConsiderar a possibilidade de estimular análise de sentimento (ou padrões para identificar sarcasmo) considerando emojis e outros estilos de escrita muito específicos. Potencialmente útil em pesquisas futuras para reduzir falsos positivos de linguagem ofensiva ou discurso de ódio. Um projeto internacional é deepmoji.mit.edu / GitHub do DeepMoji
termos-ofensivos, palavraoWikipedia, HateBase PTPalavrões, Palavra de baixo calão, termos ofensivos: <ul><li>Preferencialmente com classificações adicionais (por região, tipo de palavrão, intensidade)</li><li>Permitir exportação para lista de palavras simples (útil em filtros de spam)</li><li>Pode exibir uma abordagem colaborativa, atualizável por usuários finais</li><li>Muito útil para gerar outros conjuntos de dados</li></ul>
termos-ofensivos, discurso-de-odioWikipedia, HateBase PTConjunto de dados que ajudem a identificar especificamente discurso de ódio possui interesse especial dentro de termos ofensivos
weasel-wordlanguagetool weasel wordsLista de palavras com termos evasivos. Pode ser interessante interessante até para análise de discursos políticos. Veja: Finding Hedges by Chasing Weasels: Hedge Detection Using Wikipedia Tags and Shallow Linguistic Features
<!-- TODO: adicionar <https://github.com/stopwords-iso/stopwords-pt> --> <!-- > Nota: a lista de desejos acima não foi revisada nem quanto a utilidade como quanto a viabilidade. Se você trabalha na área e algo parece absurdo, provavelmente você está certo. [Entre em contato](#contato). Ajuda de especialistas ou profissionais experientes para priorizar conjunto de dados é extremamente valiosa. -->

Justificativa

Uma forma de classificar conjunto de dados que se provam úteis separar em duas categorias:

  1. Validados o suficiente para uso como ferramenta em pesquisa acadêmica nível internacional
  2. Os aceitáveis para uso no dia a dia pela indústria

A coexistência de ambos é boa para sociedade. Como podemos estimular mais ainda? Um problema a nível internacional é que há baixa interação, mesmo dentro de universidades, das áreas de computação com as de estudo da língua, psicologia, sociologia e afins. Será que podemos estimular uma abordagem diferente em nossos países?

TODO: adicionar mais informação da justificativa (fititnt, 2018-05-21 03:08 BRT)

<!-- A [acessibilidade importa](acessibilidade.md): é preciso entender que disponibilizar alternativas simples como lista de palavras temática, mesmo com [limitações aceitáveis](limitacoes.md), não só facilita adoção e impacto positivo como potencialmente reduz abusos de sistemas sem intervenção humana. -->

Contato

Licença

Public Domain

Na medida do possível sob a lei, Emerson Rocha renunciou todos os direitos autorais e direitos conexos ou vizinhos a este trabalho para o domínio público.