"Вярваме само на Господ.
Всички останали да си носят отворени данни."
След поредицата от скандали в съдебната система, решихме да вмесем поне частица яснота. Всеки ден в съдилищата из страната се водят хиляди дела. За жалост данните за тези дела не са достъпни в мрежата, но се оказва, че актовете от тях са публични за повечето съдилища. Затова решихме да свалим всички и да ги предоставим свободно в мрежата за анализ.
Данните са свалени от търсачката на justice.bg. Към 5-ти август 2012 открихме 580049 акта и 607656 документа (някои от тях мотиви). Свалянето на актовете се правеше автоматично, но с такава честота, че да наподобява работа на обикновен потребител. Целта на това беше да не претоварим сървърите на съдебната система. Като резултат свалянето на данните отне около 3 седмици.
Данните, които ще намерите тук се състоят от две част - мета данни и документи. Мета данните съдържат номер и тип на делото, съдия и съдебен състав, тип и дати на актове и мотиви, дали делото е предадено на горна истанция, дали има свързани дела и прочие. Тази информация се съдържа в SQL база данни. В таблици са отделени имената и местоработата на съдии и съдебни състави (общо 3789), като всеки от тях е свързан с издадените актове (общо 1152969 връзки). Тази структура позволява по-лесно изготвяне на справки.
Втората част от данните са самите документи. Те бяха предимно HTML и DOC файлове с общ размер 21Gb. За да се намали размера им и да са по-лесни за анализ, само текстовата информация беше извлечена от тях като параграфите бяха запазени. Това намали размерът на документите на 10G (zip - 2.1Gb). Във архива те са подредени по години и месеци на издаване. Имената им се състоят от номера на акта и a/m в зависимост дали става въпрос за акт или мотив. Например, файлът в 2000/12/430449_a.txt е издаден през декември 2000, отнася се до акт с номер 430449.
Качеството на данните е друг важен въпрос. Открихме, че някои актове липсва е системата. Пример за това е, че има само два акта на ВАС и ВКС. При ВАС може да се намерят актовете на техния сайт, но не и в централната система. Мета данните имаха очевидни грешки при 19 акта - предимно дати на издаване. При 80 други акта документите за сваляне са развалени. Възможно е да има още от тези 600000 документа, които автоматичният анализ да не е хванал като развалени, но нямаме възможност да прегледаме всички. Ако откриете още грешки, моля пишете ни, за да ги оправим.
Данните са актуални към края на юли 2012. Подготвяме механизъм за автоматично ежеседмично обновяване на последните качени актове. В тези случаи ще предоставяме само обновления на базата данни и архива с документи - не целите наново. Ако имате интерес към обновления или искате да анализирате данните, моля пишете ни. Тук ще намерите графики от няколко бързи справки в данните (актуални към края на юли 2012).
База с всички мета данни | Всички документи | CC-BY
Боян Юруков | yurukov@gmail.com