24 май, 2019

Графова база данни GraphDB, дело на Ontotext Sirma AI, предоставя тонове полезна информация

Продуктът GraphDB се използва от много държавни институции с цел предоставяне на отворени данни на обществото. Наскоро, Британският парламент също пусна два нови портала за публикуване на отворена информация, които са базирани именно на този софтуер. Не само правителствата обаче, използват GraphDB. Милен Янкулов, който е Marketing Manager в Ontotext Sirma AI разказва повече за историята на софтуера, работата по него и широкото му разпространение

Разкажете повече за Ontotext – каква е основната дейност на компанията?

Компанията Ontotext е създадена като Research & Development звено на Sirma Group и се занимава със семантични технологии от 2000г. Семантичните технологии са вид изкуствен интелект. Самата Sirma Group е започнала развитието си в областта на AI още преди 25 години, но тогава изкуственият интелект не е бил толкова популярен. Първите проекти на компанията са били предназначени за Канадското правителство.

През 2008г. се отделихме като “spin-off” фирма и оттогава развиваме нашата графова база данни и платформата за текстов анализ.

Колко човека участват в проекта GraphDB? От колко време се работи по него?

Тъй като това е софтуерен продукт, по него се работи постоянно, защото се пускат нови версии, в които се оправят грешки от предишни такива и се добавят нови функционалности. Създават се множество подобрения, като ние се стремим да се вслушваме в обратната връзка на съществуващите ни потребители. Когато те намерят някакви проблеми, разработчиците се вслушват в мненията им и работят по усъвършенстването на продукта. Рeлийзите добавят стабилност, скалируемост и надеждност на базата данни. В момента по GraphDB работят около 20 човека, които са основно девелопъри, QA и Support-специалисти.

По GraphDB се работи от около 10 години. Сегашната версия на продукта е 8.5.8, като през последните 2 години политиката ни е да пускаме minor release на всеки два месеца. Целта е да сме по-пъргави и да усвояваме бързо feedback-а, който получаваме.

Какви са основните функции на софтуера?

Графовата база дани е проектирана за публикуване на отворени данни. Правителствата са задължени да оповестяват информация в портали, които са отворени по смисъла на действащите закони (напр. В България това са търговския регистър, данните за качеството на въздуха, регистъра за публичните поръчки и т.н.). Проблемът на тези портали е, че изходната информация е поднесена по доста сложен и неразбираем начин. Това, което GraphDB прави е, че позволява зареждането на тези банни данни, конвертирането им в стандартизиран формат и публикуването им в достъпен и смислен вид за възприемане от страна на потребителите. Графовата база данни дава възможност да се направи връзката на едни източници на информация с други. Също така, GraphDB прави индексирането на получените данни много по-лесно. Друга функция на софтуера е, че чрез него търсенето се извършва не просто по ключови думи, а и по смисъл. Именно това представлява семантичното търсене. Все повече големите търсачки, като Google, наблягат на този метод.

Разбира се, проектът може да има различни добавени приложения, като Master Data Management.

Имаме 4 версии на продукта – Free, Standart, Enteprise и Cloud. Най-сериозните ни клиенти ползват Enterprise версията.

Какви технологии бяха използвани по време на разработката му?

Софтуерът е основно базиран на Java, но използваме още .NET, C#, Clojure, Javascript,PHP, Python и Ruby. GraphDB има версии за всички основни операционни системи. Софтуерът има user интерфейс, който е много лесен за работа.

Какво привлече вниманието на британския парламент? В какви други институции и компании се използва вашият проект?

Ние работим с Британския парламент от 2011г., но едва сега от институцията пуснаха публични портали с данни. Преди 7 години се явихме на конкурс, където представихме проекта редом с други компании и спечелихме, защото GraphDB е скалируем, мащабируем и надежден. Софтуерът може да събира огромни количества данни от  над 20 други IT системи на парламента. Наскоро от Великобритания пуснаха двата сайта за отворени данни – legislation.gov.uk и data.gov.uk. Желанието на парламента там беше да създаде портал за отворени данни, в който хората да могат лесно да се ориентират и да достигат до търсената информация. Великобритания е на първо място в света по обем на отворените данни и необходимостта от подобен портал е значителна.

Относно държавни институции сме внедрили GraphDB още в Холандския кадастър, в Канадското правителство, в Националната галерия на САЩ. Повечето научни издателства и  няколко английски медии също използват нашата графова база данни. Спортната секция на BBC се поддържа от GraphDB, като ние помагаме на медията да се генерират автоматично страници за конкретни събития или хора. Например, ако се играе футболен мач, в спортната секция се “вдига” специална страница за този двубой. GraphDB, като база данни, която стои зад тази система има информация за всички играчи от футболните отбори – от коя държава са, в кой отбор са били преди това, свързани с тях организации и лица и т.н. При промяна в резултата, това автоматично се отразява в динамично създадените елементи от съдържание-появява се информация за голмайстора-статистики, допълнителни статии и факти за него. По този начин софтуерът прави работата на медията по-бърза и подобрява потребителското преживяване. Работим и с Financial Times, като ние предоставяме Smart Recommendation. В тази медия срещу определено заплащане, читателят получава ексклузивно съдържание, подготвено само за потребители с платен достъп. Тези, които четат статии на конкретни теми получават подходящи препоръки за статии по теми, от които се интересуват. GraphDB събира данни от историята им на четене в сайта и препоръчва материали на сходна тематика.

Тъй като GraphDB се използва в помощ на потребителите във Великобритания да откриват отворени данни, смятате ли, че подобни иновации допринасят за по-голямата прозрачност на действията на властите?

Убеден съм, че го прави. Много хора в България и по света работят за това да се отварят данните. От друга страна са налице технологични вендори, които имат необходимите характеристики, за да създават подобни софтуери, които да допринасят за по-голямата прозрачност на действията на властите.

Какви са бъдещите ви проекти? Какъв тип услуги ще предоставят те?

Бъдещето на компанията е много тясно свързано с развитието на Sirma Group Holding. Вече започваме да променяме името си от Ontotext на Ontotext Sirma AI. Ние се превръщаме в централно звено за Research & Development на Sirma. Върху GraphDB добавяме Computer Vision, чат-бот и платформа за Process Management и Document Management. Цялото ни портфолио ще е предназначено за FinTech, PublishingPharma и LifeScience индустрията. Разбира се, ще продължаваме да усъвършенстваме и основния ни продукт GraphDB.

Кои са вашите конкуренти в световен мащаб?

Аз лично смятам, че имаме потенциала да се конкурираме с компании от рода на Google, Microsoft и IBM. Мисля, че сме пряк конкурент на IBM Watson в много вертикали, като Health Care & Life Science, Company Intelligence и Publishing. Конкурираме се по възможността на нашите технологии да извличат структурирана информация от огромни масиви неструктурирани данни. Това улеснява работата на много организации, които през годините са натрупали знания, които са пръснати в различни информационни системи и локации.

Тагове: , , , , , , , , , , , , , , , , , ,