ИИ Google не является профессионалом в маркировке данных!  Но комп этого не признает

ИИ Google не является профессионалом в маркировке данных! Но комп этого не признает



Google

Самые большие проблемы, с которыми сталкивается индустрия искусственного интеллекта Google, — это мусор, эксплуататорские методы маркировки данных.

Исследование, опубликованное Surge AI, подчеркивает одну из самых больших проблем, с которыми сталкивается индустрия искусственного интеллекта: мусор, эксплуататорские методы маркировки данных. Google создал набор данных под названием «GoEmotions. Это самый большой вручную аннотированный набор данных из 58 тысяч комментариев Reddit на английском языке, помеченных для 27 категорий эмоций или нейтральных. Набор данных Google AI GoEmotions состоит из комментариев пользователей Reddit с метками их эмоциональной окраски. Колоссальные 30% набора данных серьезно неправильно помечены.

Согласно Google: в «GoEmotions: набор данных детальных эмоций» мы описываем GoEmotions, аннотированный человеком набор данных из 58 тысяч комментариев Reddit, извлеченных из популярных англоязычных субреддитов и помеченных 27 категориями эмоций. Поскольку на сегодняшний день это самый большой полностью аннотированный набор данных об эмоциях на английском языке, мы разработали таксономию GoEmotions с учетом как психологии, так и применимости данных. Он предназначен для обучения нейронных сетей глубокому анализу тональности текстов.

Практика Google по маркировке данных в отрасли искусственного интеллекта:

Surge AI просмотрел выборку из 1000 помеченных комментариев из набора данных GoEmotions и обнаружил, что значительная часть из них была помечена неправильно. Такие данные не могут быть правильно помечены. Дело не в том, что отдельные лейблеры плохо справились со своей задачей, а в том, что им дали невыполнимую задачу. Этот конкретный вид развития ИИ является мошенничеством. Это мошенничество. И это один из самых старых в книге.

Google использовал метки данных, незнакомые с американским английским языком и американской культурой, несмотря на то, что Reddit был сайтом, ориентированным на США, с особенно специализированными мемами и жаргоном. Когда мы изменили маркировку набора данных, наша техническая инфраструктура и алгоритмы человеческого ИИ позволили нам использовать наш рынок маркировки для создания команды хирургов, которые не только являются носителями английского языка в США, но также активными пользователями Reddit и социальных сетей, которые понимают все. Шутки Reddit, нюансы в политике США.

READ  Google Ads: никаких планов для модификаторов рекламы, использующих местоположение для адаптивных поисковых объявлений

Исследователи взяли неразрешимую проблему, как определить человеческое чувство в тексте в огромных масштабах без настройки, и использовали магию чуши, чтобы превратить ее в относительно простую, с которой может справиться любой ИИ, как сопоставить ключевые слова с метками. Подарок в том, что вам не нужно возиться с искусственным интеллектом, чтобы сопоставлять ключевые слова с метками.

Предполагая, что результат ИИ может быть использован для воздействия на человеческие призы, такие как обнаружение каждого из резюме в стопке, в которых есть «положительное мнение», мы должны ожидать, что часть документов, которые он не обнаружил, была несправедливо подавлена. Наша позиция здесь, в Neural, заключается в том, что совершенно ненадежно создавать ИИ для созданного человеком контента без сообщенного согласия людей, которые его создали. Кроме того, наша позиция также состоит в том, что недобросовестно передавать модели ИИ, подготовленные на основе информации.

Ученые Google знают, что обычный расчет «поиск и сравнение ключевых слов» не может превратить модель ИИ в мастера человеческого уровня в науке о мозге, социальных науках, массовом обществе и семантике, поскольку они загружают ее набором данных, загруженным бессистемно неправильно помеченными сообщениями Reddit. . Тем не менее, никакие способности и инновации не могут превратить мешок, наполненный колбасой, в полезную модель ИИ, когда речь идет о человеческих результатах.

Больше популярных историй
  • Стоимость производства биткойнов составляет 13 тысяч долларов США! BTC на пороге свободного падения
  • Топ-10 компаний, нанимающих специалистов-самоучек в 2022 году
  • 10 лучших индийских стартапов Web3, совершивших революцию в 2022 году
  • Шиба-ину потребуется более десяти тысяч лет, чтобы достичь стоимости в 1 доллар США!
  • 10 лучших вариантов холодного хранения криптовалюты для инвесторов в 2022 году
  • 10 лучших криптовалют для покупки после продажи ваших инвестиций в биткойны
  • Внедрение когнитивного интеллекта с помощью роботов и дронов, управляемых искусственным интеллектом, в Индустрии 4.0
READ  Что такое Яндекс.Телемост: как пользоваться, инструкция и описание сервиса

Сообщение Искусственный интеллект Google не является профессионалом в маркировке данных! Но Comp не признает, что он впервые появился на .



Source link