Home

Awesome

Bulgarian wordlists

Това хранилище съдържа архивирани файлове със думи и имена на български език както и единни граждански номера. Всичката информация в това хранилище е събрана от публични данни, а номерата са генерирани и валидирани използвайки алгоритъм. Използването на предоставената информация е на своя собствена отговорност.

Какво е wordlist?

Това е списък с думи или номера в редактируем текстов файл, обикновено по една на ред. Имат най-различна употреба от системи за валидиране на очаквани входящи данни до речникова атака (dictionary attack) срещу уеб или настолни приложения.

Списъци с думи

Списъците съдържат думи на кирилица с малки букви (lowercase) подредени азбучно в текстови файлове с UTF-8 енкодинг. Налични са в три формата - кирилица, транслителирани, шльокавица.

Единен граждански номер (ЕГН)

Списък с единни граждански номера на български граждани. Списъка е подреден в отделни файлове по години, както и файл със всички възможни валидни номера. Източници: Генерирани номера от 1800г. до 2100г. и валидирани спрямо алгоритъма на ГРАО - ЕСРАГОН използвайки python модула за egn.

Изтегляне: Всички в един файл - egn.zip или Файлове по години - egn.zip (109 млрд. записа)

Изтегляне

ТипКирилицаТранслителираниШльокавицаЗаписи
Български първи именаbg-names-cyrillic.txtbg-names-latin.txtbg-names-6lyokavica.txt31666
Български фамилни именаbg-familynames-cyrillic.txtN/AN/A55265
Населени местаbg-geo-cyrillic.txtbg-geo-latin.txtbg-geo-6lyokavica.txt4657
Жаргонни думиbg-jargon-cyrillic.txtN/AN/A15264
Неологизмиbg-neologisms-cyrillic.txtN/AN/A2381
Фразеологизмиbg-idioms-cyrillic.txtN/AN/A6924
Неприлични думиbg-obscene-cyrillic.txtN/AN/A469
Абривиатуриbg-abbreviations-cyrillic.txtN/AN/A13767
Некатегоризирани думиbg-words-cyrillic.txtbg-words-latin.txtbg-words-6lyokavica.txt752537
Всички думиall-cyrillic.txtall-latin.txtall-6lyokavica.txt755130

Принос и разработка

За да добавите нови думи или файлове използвайте функционалноста на github. Добавяйте записи само във файловете с кирилица, останалото се генерира след като използвате скриптовете.

Логиката на генериране на записите е следната:

  1. Записи на Кирилица > Транслитерация > Сортирание и премахване на повтаряеми записи > Транслирани записи
  2. Записи на Кирилица > Шльокавица > Сортирание и премахване на повтаряеми записи > Записи на Шльокавица
  3. Шльокавица + Транслирани записи > Сортирание и премахване на повтаряеми записи > Записи на латиница
  4. Латиница + Кирилица > Всички записи
  5. Генериране на rainbow таблици