Awesome

Linguistic Datasets for Portuguese: conjuntos de dados linguísticos para português (pt-AO, pt-BR pt-MZ e pt-PT)

Lista de conjuntos de dados linguísticos para português com licenças flexíveis: banco de dados, lista de palavras, sinônimos, antônimos, dicionário temático, tesauro, linked data, semântica, ontologia e representação de conhecimento.

<blockquote><em lang="en"> (English description) List of linguistic datasets for Portuguese with flexible licenses: database, wordlist, synonyms, antonyms, thematic dictionaries, thesaurus, linked data, semantic, ontology and knowledge representation. </em></blockquote>

O objetivo desse projeto, inspirado pelo espírito de FOSS, é listar fontes de representações de conhecimento que, ao depender da língua e das culturas locais, não podem ser importadas. Requerem atenção especial, de caráter multidisciplinar, e que idealmente já deveria estar prontas e aceitavelmente validadas: quando não existem, na melhor das hipóteses, podem forçar serem feitas por não especialista e prejudicar qualidade, e na pior, até impedir a produção de tecnologias inovadoras.

Lista

Conjuntos de dados linguísticos requerem muito mais atenção e trabalho humano especializado do que tradicionalmente se vê em dados abertos. Pense em megabytes, não gigabytes. Boa parte dos conjuntos de dados listados são praticamente engenharia reversa da representação de conhecimento e que, mesmo sem usar licença específica mais para datasets (PDDL, CDLA, ODC, ...) tem uma licença em que você pode usar.

Conjunto de dados	Data	Licença	Etiquetas	Descrição
languagetool-org: regras PT	ativo	LGPLv2.1	(muitas-tags), pt-AO, pt-BR pt-MZ e pt-PT	languagetool-org é verificador de estilo e gramática para mais de 25 idiomas
languagetool-org: falsos cognatos	ativo	LGPLv2.1	falsos-cognatos, traducao	Falsos cognatos (Inglês: false friends) são termos que parecem uma coisa, mas na verdade, são outra. Muito pertinente na tradução de textos
openWordnet-PT	ativo	CC-BY-4.0	wordnet, owl, rdf, sparql, pt-BR	OpenWordnet-PT: an open Brazilian Wordnet
Stopwords Portuguese (PT)	2016-10-10	Várias	stopwords, palavras-vazias	Lista de listas de palavras-vazias com 560 termos únicos
VERO-pt-BR	2013-12-17	LGPLv3, MPL	verificacao-ortografica, verificacao-gramatical, hifenizacao, libreoffice, openoffice, pt-BR	Espelho não-oficial da base de dados do VERO (VERificador Ortografico do LibreOffice)
DicSin pt-BR	2010-05-28	GPLv2?	dicionario, sinonimo, antonimo, pt-BR	DicSin: Dicionário de sinônimos e antônimos no idioma português brasileiro
br.ispell	2003-03-25	GPLv2	dicionario, verificacao-ortografica, ispell, aspell, myspell, pt-BR	Espelho não-oficial dos dados de br.ispell

Pergunta em aberto: sabendo que conjunto de dados linguísticos são úteis para todos (principalmente o próprio governo e pequenas e médias empresas e organizações) o que pode ser feito com os que nem existem ou os que o uso mais comum implica em pirataria?

Lista de desejos

Aviso: a lista a seguir não foi revisada quanto a utilidade e viabilidade.

Etiquetas	Inspirações	Descrição
afinn-111, analise-de-sentimento	AFINN-111, EN	Uma lista de palavras etiquetada com uma valência positiva ou negativa adaptada a um ou mais dialetos da língua portuguesa, que use como inspiração (não necessariamente uma tradução) do artigo A new ANEW: Evaluation of a word list for sentiment analysis in microblogs
analise-de-sentimento, sarcasmo	MIT, emojis, bullying	Considerar a possibilidade de estimular análise de sentimento (ou padrões para identificar sarcasmo) considerando emojis e outros estilos de escrita muito específicos. Potencialmente útil em pesquisas futuras para reduzir falsos positivos de linguagem ofensiva ou discurso de ódio. Um projeto internacional é deepmoji.mit.edu / GitHub do DeepMoji
termos-ofensivos, palavrao	Wikipedia, HateBase PT	Palavrões, Palavra de baixo calão, termos ofensivos: <ul><li>Preferencialmente com classificações adicionais (por região, tipo de palavrão, intensidade)</li><li>Permitir exportação para lista de palavras simples (útil em filtros de spam)</li><li>Pode exibir uma abordagem colaborativa, atualizável por usuários finais</li><li>Muito útil para gerar outros conjuntos de dados</li></ul>
termos-ofensivos, discurso-de-odio	Wikipedia, HateBase PT	Conjunto de dados que ajudem a identificar especificamente discurso de ódio possui interesse especial dentro de termos ofensivos
weasel-word	languagetool weasel words	Lista de palavras com termos evasivos. Pode ser interessante interessante até para análise de discursos políticos. Veja: Finding Hedges by Chasing Weasels: Hedge Detection Using Wikipedia Tags and Shallow Linguistic Features

Justificativa

Uma forma de classificar conjunto de dados que se provam úteis separar em duas categorias:

Validados o suficiente para uso como ferramenta em pesquisa acadêmica nível internacional
Os aceitáveis para uso no dia a dia pela indústria

A coexistência de ambos é boa para sociedade. Como podemos estimular mais ainda? Um problema a nível internacional é que há baixa interação, mesmo dentro de universidades, das áreas de computação com as de estudo da língua, psicologia, sociologia e afins. Será que podemos estimular uma abordagem diferente em nossos países?

TODO: adicionar mais informação da justificativa (fititnt, 2018-05-21 03:08 BRT)

Contato

Email: Emerson Rocha <rocha@ieee.org>.
GitHub Issues: https://github.com/fititnt/linguistic-datasets-portuguese/issues.

Licença

Na medida do possível sob a lei, Emerson Rocha renunciou todos os direitos autorais e direitos conexos ou vizinhos a este trabalho para o domínio público.