Новый проект открывает доступ к знаниям Википедии для искусственного интеллекта

Новый проект открывает доступ к знаниям Википедии для искусственного интеллекта

Wikimedia Deutschland представила инновационную базу данных, которая значительно упрощает доступ искусственного интеллекта к огромному объему знаний Википедии. Новый проект, названный Wikidata Embedding Project, использует векторный семантический поиск — технологию, позволяющую компьютерам понимать смысл и взаимосвязи между словами — для обработки почти 120 миллионов записей Википедии и её сестринских платформ.

Совместно с поддержкой протокола Model Conte Protocol (MCP), благодаря которому системы ИИ могут эффективно взаимодействовать с источниками данных, проект обеспечивает удобный доступ к информации через запросы на естественном языке.

Разработка осуществлена при участии немецкого отделения Wikimedia, а также компаний Jina.AI и DataSta. Ранее данные Wikidata были доступны только для поиска по ключевым словам и специализированным запросам SPARQL, тогда как новая система отлично подходит для интеграции с системами Retrieval-Augmented Generation (RAG), позволяющими ИИ получать достоверную внешнюю информацию, проверенную редакторами Википедии.

База данных структурирована так, что при запросе слова «учёный» будут отображены как известные учёные-ядерщики, так и специалисты из Bell Labs, а также переводы термина на разные языки, изображения учёных в работе и связанные понятия, например «исследователь» и «учёный-теоретик».

База доступна публично на платформе Toolforge, а 9 октября состоится вебинар для разработчиков, интересующихся использованием проекта.

В эпоху, когда разработчики ИИ ищут надежные и качественные источники данных для обучения моделей, этот проект становится особенно актуальным. В отличие от общих наборов данных, Википедия предоставляет более точную и проверенную информацию, что критически важно для задач с высокими требованиями к достоверности.

По словам руководителя проекта Philippe Saadé, эта инициатива доказывает, что мощные ИИ-инструменты могут быть открытыми, совместными и служить интересам всех, а не контролироваться лишь несколькими крупными компаниями.

Tion