Генеральный директор Reddit Стив Хаффман считает пользовательский контент на платформах «современной нефтью» для развития искусственного интеллекта. За его предоставление Reddit недавно заключил крупные сделки с Google и OpenAI, но не все компании готовы делиться данными так мирно.
Данные Reddit как основа для LLM
Стив Хаффман, глава Reddit, заявил, что большие языковые модели (LLM) не смогли бы развиваться без доступа к огромным массивам данных, созданных пользователями. Он подчеркнул, что контент, публикуемый на Reddit, стал ключевым источником обучения для ИИ, сравнив его с «современной нефтью».
По мнению Хаффмана, именно публичные данные, сгенерированные людьми, позволяют нейросетям обучаться, понимать язык и генерировать осмысленные ответы. Без такого объёма качественной информации, по его словам, LLM как таковые не существовали бы или были бы значительно менее развиты.
Сделки Reddit с Google и OpenAI
За последний год Reddit заключил соглашения о лицензировании своих данных с двумя крупными игроками на рынке ИИ – Google и OpenAI. Эти сделки позволяют технологическим гигантам использовать массив пользовательских данных Reddit для обучения своих моделей. Хаффман видит в этом справедливую плату за ценность, которую представляют его пользователи.
Интересно, что Reddit не просто продает доступ, но и активно участвует в обсуждении условий. Хаффман подчеркивает, что такие партнерства выгодны обеим сторонам. Reddit получает доход и признание своей роли в развитии ИИ, а Google и OpenAI – доступ к уникальному и постоянно обновляемому источнику информации.
Почему возникают иски, а не сделки
На фоне успеха Reddit в монетизации своих данных, Хаффман также коснулся темы судебных исков, с которыми сталкиваются некоторые другие компании. Он считает, что многие иски против разработчиков ИИ возникают тогда, когда компании не могут договориться о справедливой компенсации за использование их контента. Вместо того чтобы заключать сделки, некоторые правообладатели предпочитают обращаться в суд, требуя возмещения ущерба за несанкционированное использование данных.
Позиция Хаффмана проста: если данные ценны для обучения ИИ, то за это нужно платить. Это обеспечивает баланс интересов между создателями контента и разработчиками технологий.
Комментарий эксперта
С позицией CEO Reddit я полностью согласен. Контент, созданный пользователями на платформах, стал ключевым ресурсом для развития ИИ. Я вижу на своих проектах, как Google активно использует такой контент, особенно в нишах с высокой долей пользовательских обзоров и мнений. Например, для локального SEO оценки и отзывы на картах, а также пользовательские фотографии, прямо влияют на ранжирование.
Что делать сейчас? Владельцам проектов критично следить не только за уникальностью своего контента, но и за качеством пользовательского контента — отзывы, комментарии, UGC. Для e-commerce проектов проверьте, как отображаются UGC-блоки, нет ли проблем с индексацией контента внутри них. Замерьте долю UGC по крупным категориям товаров, например, 30% обзоров от общего числа продаж. Если для ваших услуг важно мнение людей, особенно в YMYL-нишах, стимулируйте клиентов оставлять отзывы. Используйте внутренние виджеты и виджеты агрегаторов, например, с Яндекс Карт. Убедитесь, что роботы Яндекса и Google могут их сканировать. Если у вас информационный сайт, обратите внимание на комментарии и форумы — это потенциальный источник «свежей нефти» для Google, который будет использоваться для обучения ИИ.