
Сестринский проект Википедии — Wikidata — получил новую базу данных, специально оптимизированную для работы с искусственным интеллектом. Эта новинка облегчает использование огромного массива данных Wikidata для создания и обучения моделей ИИ.
Команда из немецкого отделения Wikimedia Deutschland в Берлине в течение года работала над преобразованием 19 миллионов записей Wikidata с не самой удобной структурой в векторный формат. Эти векторы отражают контекст и смысл каждого элемента, позволяя ИИ лучше понимать взаимосвязи между данными. Например, писатель Дуглас Адамс будет связан с понятиями «человек» и названиями его книг.
Хотя внешний вид и пользовательский интерфейс Wikidata не изменятся, новая база упростит доступ для разработчиков ИИ, которые смогут использовать данные для создания собственных чат-ботов и других приложений.
Главная цель проекта — предоставить равные возможности мелким компаниям и независимым разработчикам, которые не обладают ресурсами крупных корпораций, таких как OpenAI. Эта инициатива поможет им работать с качественными, структурированными данными, что позволит создавать более точные и разнообразные ИИ-системы, отражающие широкий спектр тем, в том числе и нишевых.
К примеру, проект Govdirectory использует данные Wikidata для поиска контактной информации публичных чиновников по всему миру. Новая векторная база позволит ИИ лучше анализировать контекст информации, делая выводы более глубокими и точными.
Для преобразования данных в векторы использовалась модель компании Jina AI, а хранение обеспечивается инфраструктурой DataSta. Разработчики ждут отзывов от пользователей базы данных, чтобы обновлять её и дальше, учитывая новые данные и изменения.


