Perplexity обвиняется в обходе запретов на сбор данных с сайтов

Perplexity обвиняется в обходе запретов на сбор данных с сайтов

Стартап в области искусственного интеллекта Perplexity обвиняется в сборе контента с сайтов, которые явно запрещали подобные действия, сообщает интернет-провайдер Cloudflare. Исследование, опубликованное Cloudflare, выявило, что Perplexity игнорирует запреты и скрывает свою активность по сбору данных, изменяя идентификаторы своих ботов и маскируя их под обычных пользователей.

Продукты на базе ИИ, подобные тем, что предлагает Perplexity, требуют больших объемов данных из интернета. Ранее многие сайты пытались ограничить сбор данных с помощью стандартного файла Robots.txt, который указывает, какие страницы можно индексировать, а какие — нет. Однако, по наблюдениям Cloudflare, Perplexity намеренно обходит эти ограничения, меняя параметры ботов, чтобы не быть заблокированными.

Активность Perplexity была замечена на десятках тысяч доменов с миллионами запросов в день. Cloudflare смогла определить ботов Perplexity с помощью машинного обучения и анализа сетевых сигналов. По словам представителей Perplexity, обвинения не соответствуют действительности, и они утверждают, что указанные боты к ним не относятся.

Cloudflare начала отслеживать такую активность после жалоб своих клиентов, которые заметили, что Perplexity продолжает собирать данные, несмотря на введенные ограничения. Компания предприняла меры по блокировке ботов Perplexity и исключила их из списка разрешенных.

В последнее время Cloudflare активно выступает против неконтролируемого сбора данных ИИ-системами, предлагая владельцам сайтов возможность взимать плату с таких ботов за доступ к контенту. Также компания разработала инструменты для защиты сайтов от несанкционированного сбора данных, что отражает растущую озабоченность по поводу нарушения бизнес-моделей интернет-ресурсов.

Это не первый случай, когда Perplexity обвиняют в несанкционированном сборе данных. В прошлом году ряд СМИ указывали на плагиат и неэтичное поведение компании в отношении авторского контента.

Tion