
Стартап в области искусственного интеллекта Perplexity обвиняется в сборе контента с сайтов, которые явно запрещали подобные действия, сообщает интернет-провайдер Cloudflare. Исследование, опубликованное Cloudflare, выявило, что Perplexity игнорирует запреты и скрывает свою активность по сбору данных, изменяя идентификаторы своих ботов и маскируя их под обычных пользователей.
Продукты на базе ИИ, подобные тем, что предлагает Perplexity, требуют больших объемов данных из интернета. Ранее многие сайты пытались ограничить сбор данных с помощью стандартного файла Robots.txt, который указывает, какие страницы можно индексировать, а какие — нет. Однако, по наблюдениям Cloudflare, Perplexity намеренно обходит эти ограничения, меняя параметры ботов, чтобы не быть заблокированными.
Активность Perplexity была замечена на десятках тысяч доменов с миллионами запросов в день. Cloudflare смогла определить ботов Perplexity с помощью машинного обучения и анализа сетевых сигналов. По словам представителей Perplexity, обвинения не соответствуют действительности, и они утверждают, что указанные боты к ним не относятся.
Cloudflare начала отслеживать такую активность после жалоб своих клиентов, которые заметили, что Perplexity продолжает собирать данные, несмотря на введенные ограничения. Компания предприняла меры по блокировке ботов Perplexity и исключила их из списка разрешенных.
В последнее время Cloudflare активно выступает против неконтролируемого сбора данных ИИ-системами, предлагая владельцам сайтов возможность взимать плату с таких ботов за доступ к контенту. Также компания разработала инструменты для защиты сайтов от несанкционированного сбора данных, что отражает растущую озабоченность по поводу нарушения бизнес-моделей интернет-ресурсов.
Это не первый случай, когда Perplexity обвиняют в несанкционированном сборе данных. В прошлом году ряд СМИ указывали на плагиат и неэтичное поведение компании в отношении авторского контента.


