У искусственного интеллекта заканчиваются данные
Моделям ИИ не хватает данных для обучения. Согласно последнему исследованию Data Provenance, объем контента, который используют разработчики нейросетей, резко сокращается. Особенно заметной эта тенденция стала в последний год, пишет The New York Times. Аналитики изучили порядка 14 тыс. доменов и пришли к выводу, что многие онлайн-платформы ввели ограничения на сбор данных со своих сайтов.
Компании опасаются, что, помимо общей информации, к разработчикам могут попасть и персональные данные пользователей, объяснил программист, эксперт в области IT-технологий Кирилл Ситнов: «Многие начали закрывать доступ к своим базам данных. Есть интересная история, как нейросеть где-то около года или полутора лет назад при общении с несколькими пользователями сказала, что просматривает их почту. Может быть, это просто ошибка самого ИИ, который выдал этот ответ, а, возможно, у него был доступ к такой информации. Мы, конечно же, правды не узнаем, но в Google максимально открещивались от этой новости.
Многие компании, скорее всего, опасаясь того, что персональные данные станут общедоступными, решили позаботиться о том, чтобы всю эту информацию начинать закрывать от нейросетей.
Ведь говорилось о том, что начали даже разрабатываться специальные нейросети, которые будут распознавать голоса, для того чтобы изучать ролики, к примеру, с YouTube. Использование таких инструментов в первую очередь говорит о том, что разработчики, вероятно, скоро наплюют на все авторские права и просто начнут обучать нейросети на чужом контенте непосредственно с различных видеохостингов. Если же вопрос касается именно YouTube, то и сама площадка запрещает прямое заимствование контента».
Как стремление к максимально быстрой разработке ИИ-инструментов вредит их качеству
Претензии к искусственному интеллекту есть не только у пользователей, но и крупных компаний. Одно из громких дел — иск The New York Times к OpenAI: издание обвинило техгиганта в краже своей интеллектуальной собственности. Подобные вопросы возникали и к Google. Весной 2024-го зарубежные СМИ писали, что для обучения своих моделей ИИ IT-компании используют оригинальный контент миллионов YouTube-роликов. Однако дальнейшее ограничение этой информации приведет к откату технологии на несколько лет назад, уверен независимый эксперт по информационной безопасности Яков Гродзенский:
«Нейросети не могут взять информацию ниоткуда. С помощью роботов изучается огромное количество сайтов, оттуда, соответственно, ИИ получает первичную информацию, затем с помощью специальных математических алгоритмов ее обрабатывает, убирает шум, формирует некую базу знаний, которую потом использует.
Как технологии ИИ влияют на рынок труда
При сборе информации возникает две проблемы. Первая — совершенно спокойно могут сюда попадать и разнообразные персональные данные. Второе — на большом количестве сайтов размещаемый контент помечается значком копирайта, и использование информации с этой площадки правообладателем разрешено только при подписании, допустим, каких-то письменных соглашений. Для компаний-разработчиков нейросетей все это означает увеличение затрат, необходимость поиска каких-то альтернативных источников или покупки лицензии на использование данных. И, конечно, основное — это снижение качества модели. То есть чем больше данных, тем лучше этот показатель».
Ограничение потребляемых данных приводит к так называемым галлюцинациям искусственного интеллекта, когда нейросеть, не зная ответа на вопрос пользователя, выдает случайные результаты. Вместе с тем некоторые эксперты полагают, что нехватка информации — не основная проблема, с которой сталкиваются разработчики. Так, по словам директора и партнера компании «IT-Резерв» Павла Мясоедова, сейчас отрасли нужны большие вложения, чтобы выводить технологии на новый уровень: «Мы просто подошли к тому моменту, когда нам нужно залезть еще на более высокую гору, и для этого нужно время и деньги.
Это не может произойти за один день, потребуются долгосрочные инвестиции, тогда лет через десять мы увидим еще один кратный, такой же фантастический скачок, как было с языковыми моделями.
Существуют некоторые прототипы, которые достигли больших результатов, тот же самый ChatGPT. В рамках общения с ним нам, правда, кажется, что у программы есть сознание, глубокий интеллект, она отвечает на нестандартные вопросы нестандартным образом.
В чем преимущества новой версии GPT-4o mini
Как только мы хотим увидеть какие-то дополнительные способности его проявления в физическом мире, например, чтобы робот с нами не только говорил, но и мог двигаться, что-то делать, нам нужны большие выборки, не только тексты, картинки, а какие-то логические цепочки, как человек управляет автомобилем, как он ходит, как он реагирует. Вот проблема сейчас в том, чтобы собрать несколько выборок. Нам нужно соединить ряд больших сложный комплексных моделей, для чего требуются огромные инвестиции».
По мере роста негативной реакции к нейросетям, многие владельцы онлайн-платформ стали брать плату с разработчиков за использование своих данных. Другие заключают специальные соглашения, которые регулируют доступ к контенту.