Awesome
Linguistic Datasets for Portuguese: conjuntos de dados linguísticos para português (pt-AO, pt-BR pt-MZ e pt-PT)
Lista de conjuntos de dados linguísticos para português com licenças flexíveis: banco de dados, lista de palavras, sinônimos, antônimos, dicionário temático, tesauro, linked data, semântica, ontologia e representação de conhecimento.
<blockquote><em lang="en"> (English description) List of linguistic datasets for Portuguese with flexible licenses: database, wordlist, synonyms, antonyms, thematic dictionaries, thesaurus, linked data, semantic, ontology and knowledge representation. </em></blockquote>O objetivo desse projeto, inspirado pelo espírito de FOSS, é listar fontes de representações de conhecimento que, ao depender da língua e das culturas locais, não podem ser importadas. Requerem atenção especial, de caráter multidisciplinar, e que idealmente já deveria estar prontas e aceitavelmente validadas: quando não existem, na melhor das hipóteses, podem forçar serem feitas por não especialista e prejudicar qualidade, e na pior, até impedir a produção de tecnologias inovadoras.
<!-- Veja outras [justificativas da pertinência](#justificativa). --> <!-- Veja também [termos chave para inspirar pesquisas relacionadas](termos-chave.md). -->Lista
Conjuntos de dados linguísticos requerem muito mais atenção e trabalho humano especializado do que tradicionalmente se vê em dados abertos. Pense em megabytes, não gigabytes. Boa parte dos conjuntos de dados listados são praticamente engenharia reversa da representação de conhecimento e que, mesmo sem usar licença específica mais para datasets (PDDL, CDLA, ODC, ...) tem uma licença em que você pode usar.
Conjunto de dados | Data | Licença | Etiquetas | Descrição |
---|---|---|---|---|
languagetool-org: regras PT | ativo | LGPLv2.1 | (muitas-tags), pt-AO, pt-BR pt-MZ e pt-PT | languagetool-org é verificador de estilo e gramática para mais de 25 idiomas |
languagetool-org: falsos cognatos | ativo | LGPLv2.1 | falsos-cognatos, traducao | Falsos cognatos (Inglês: false friends) são termos que parecem uma coisa, mas na verdade, são outra. Muito pertinente na tradução de textos |
openWordnet-PT | ativo | CC-BY-4.0 | wordnet, owl, rdf, sparql, pt-BR | OpenWordnet-PT: an open Brazilian Wordnet |
Stopwords Portuguese (PT) | 2016-10-10 | Várias | stopwords, palavras-vazias | Lista de listas de palavras-vazias com 560 termos únicos |
VERO-pt-BR | 2013-12-17 | LGPLv3, MPL | verificacao-ortografica, verificacao-gramatical, hifenizacao, libreoffice, openoffice, pt-BR | Espelho não-oficial da base de dados do VERO (VERificador Ortografico do LibreOffice) |
DicSin pt-BR | 2010-05-28 | GPLv2? | dicionario, sinonimo, antonimo, pt-BR | DicSin: Dicionário de sinônimos e antônimos no idioma português brasileiro |
br.ispell | 2003-03-25 | GPLv2 | dicionario, verificacao-ortografica, ispell, aspell, myspell, pt-BR | Espelho não-oficial dos dados de br.ispell |
Pergunta em aberto: sabendo que conjunto de dados linguísticos são úteis para todos (principalmente o próprio governo e pequenas e médias empresas e organizações) o que pode ser feito com os que nem existem ou os que o uso mais comum implica em pirataria?
Lista de desejos
<!-- Essa abordagem é útil a curto prazo, porém o pensamento a médio e longo prazo poderia ativamente estimular que governos e universidades desenvolvam conjunto de dados úteis -->Aviso: a lista a seguir não foi revisada quanto a utilidade e viabilidade.
Etiquetas | Inspirações | Descrição |
---|---|---|
afinn-111, analise-de-sentimento | AFINN-111, EN | Uma lista de palavras etiquetada com uma valência positiva ou negativa adaptada a um ou mais dialetos da língua portuguesa, que use como inspiração (não necessariamente uma tradução) do artigo A new ANEW: Evaluation of a word list for sentiment analysis in microblogs |
analise-de-sentimento, sarcasmo | MIT, emojis, bullying | Considerar a possibilidade de estimular análise de sentimento (ou padrões para identificar sarcasmo) considerando emojis e outros estilos de escrita muito específicos. Potencialmente útil em pesquisas futuras para reduzir falsos positivos de linguagem ofensiva ou discurso de ódio. Um projeto internacional é deepmoji.mit.edu / GitHub do DeepMoji |
termos-ofensivos, palavrao | Wikipedia, HateBase PT | Palavrões, Palavra de baixo calão, termos ofensivos: <ul><li>Preferencialmente com classificações adicionais (por região, tipo de palavrão, intensidade)</li><li>Permitir exportação para lista de palavras simples (útil em filtros de spam)</li><li>Pode exibir uma abordagem colaborativa, atualizável por usuários finais</li><li>Muito útil para gerar outros conjuntos de dados</li></ul> |
termos-ofensivos, discurso-de-odio | Wikipedia, HateBase PT | Conjunto de dados que ajudem a identificar especificamente discurso de ódio possui interesse especial dentro de termos ofensivos |
weasel-word | languagetool weasel words | Lista de palavras com termos evasivos. Pode ser interessante interessante até para análise de discursos políticos. Veja: Finding Hedges by Chasing Weasels: Hedge Detection Using Wikipedia Tags and Shallow Linguistic Features |
Justificativa
Uma forma de classificar conjunto de dados que se provam úteis separar em duas categorias:
- Validados o suficiente para uso como ferramenta em pesquisa acadêmica nível internacional
- Os aceitáveis para uso no dia a dia pela indústria
A coexistência de ambos é boa para sociedade. Como podemos estimular mais ainda? Um problema a nível internacional é que há baixa interação, mesmo dentro de universidades, das áreas de computação com as de estudo da língua, psicologia, sociologia e afins. Será que podemos estimular uma abordagem diferente em nossos países?
TODO: adicionar mais informação da justificativa (fititnt, 2018-05-21 03:08 BRT)
<!-- A [acessibilidade importa](acessibilidade.md): é preciso entender que disponibilizar alternativas simples como lista de palavras temática, mesmo com [limitações aceitáveis](limitacoes.md), não só facilita adoção e impacto positivo como potencialmente reduz abusos de sistemas sem intervenção humana. -->Contato
- Email: Emerson Rocha <rocha@ieee.org>.
- GitHub Issues: https://github.com/fititnt/linguistic-datasets-portuguese/issues.
Licença
Na medida do possível sob a lei, Emerson Rocha renunciou todos os direitos autorais e direitos conexos ou vizinhos a este trabalho para o domínio público.