Данные обучения ИИ: эксперт по машинному обучению и генеральный директор TechSpeed ​​раскрывают, как качество данных может улучшить или сломать ваш продукт ИИ

Опубликовано: 2020-06-26
ai training data
Данные обучения ИИ - это то, что определяет уровень сложности и точности системы ИИ.

К 2021 году более 80% новых технологий будут основаны на искусственном интеллекте.

Однако, несмотря на то, что эта технология лежит в основе почти каждого нового технологического продукта, появляющегося на рынке, на удивление мало говорится о том, что формирует наши системы с искусственным интеллектом: качество данных.

Данные обучения AI или машинного обучения (ML) обычно сравнивают с учебниками; Они обучают системы искусственного интеллекта, давая им контекст, а также призму, через которую можно понимать концепции.

Это означает, что технология на основе искусственного интеллекта настолько сложна и точна, насколько и данные, на которых она учится.

Мы встретились с профильным экспертом и генеральным директором агентства по обслуживанию данных TechSpeed, Видьей Плейнфилд, чтобы обсудить важность данных для обучения ИИ, последствия недостаточного или плохо подобранного набора данных и некоторые тенденции, которые мы можем ожидать увидеть в этой области.

Profile image of Vidya Plainfield, CEO @TechSpeed
Видья Плейнфилд, генеральный директор @TechSpeed

1. Привет, Видья, прежде чем мы перейдем к техническим деталям, расскажи нам немного о TechSpeed ​​и своем опыте в области AI / ML и бизнеса данных?

Видья: TechSpeed ​​была основана в Портленде, штат Орегон, в 2002 году компьютерным фанатом (моя мать) и изобретателем (мой отец).

Хотя они оба уже на пенсии, их дух изобретательности, предпринимательства и семьи все еще жив в нашей растущей команде, состоящей из более чем 100 технических специалистов, разработчиков и менеджеров.

За нашу 18-летнюю историю у нас была возможность развивать и формировать отрасль данных с нашими партнерами-клиентами, поскольку мы добываем, сортируем и собираем идеи на основе данных.

Большинство людей не понимают, что за блестящим интерфейсом ИИ скрывается огромный механизм обработки данных, и эти терабайты данных основаны на тщательно созданной информации.

Если вы не будете осторожны с вашими внутренними данными, вы можете случайно научить инструмент искусственного интеллекта тому, чего вы не собирались делать.

TechSpeed ​​фундаментально понимает данные, и это стало краеугольным камнем того, как мы сотрудничаем с клиентами, помогая обучать и проверять их ИИ.

Рейтинг лучших компаний-разработчиков программного обеспечения!
Найдите их здесь

2. Давайте определим качество данных в контексте AI / ML: как TechSpeed ​​квалифицирует данные?

Видья: Конечно, качество - это главное; Мусор на входе - это мусор на выходе.

Безусловно, утомительно очищать необработанные данные, перекодировать недостающие переменные и преобразовывать качественные переменные в количественные.

Есть поговорка: «Специалисты по обработке данных тратят 80% своего времени на очистку данных и 20% на построение модели».

Самая большая ошибка, которую мы видим, заключается в том, что фирмы недооценивают и недофинансируют чистые данные о качестве.

Эта недооценка означает, что, когда дело доходит до построения своей программы, они сталкиваются с необходимостью выбора между наличием достаточно большого набора данных или набором качественных данных.

Главное - вам нужно как качество, так и количество.

TechSpeeds работает с клиентами, чтобы помочь масштабировать их наборы данных по доступной цене, чтобы им не приходилось идти на компромисс. Мы предлагаем широкий спектр услуг, включая однократную, многократную и DEQA-обработку, чтобы гарантировать, что данные соответствуют требованиям программы.

3. Как бы вы оценили подход отрасли к качеству данных? Глядя на своих коллег и клиентов, с какими наиболее распространенными ошибками или заблуждениями вы сталкивались в отношении обучения искусственному интеллекту / машинному обучению?

Видья: Есть много фирм, предлагающих широкий спектр обещаний компаниям с благими намерениями.

Некоторые поставщики начинают работу, но ожидают, что компании возьмут на себя тяжелую работу, когда дело доходит до обучения и постоянного управления исключениями.

Самые большие ошибки, которые, как мы видим, делают компании при управлении своим тарифным планом:

1. Недостаточный объем

Большие наборы данных по всем категориям необходимы для обеспечения равномерного взвешивания данных как по параметрам большинства, так и по параметрам меньшинства. Без этого алгоритмы будут перевешивать данные большинства при попытке отреагировать на ситуацию меньшинства.

Например, предположим, что вы хотите классифицировать изображения деревьев. Допустим, у вас есть много хороших данных по всем видам деревьев, всем видам освещения и стадиям жизни. Однако у вас не так много информации о том, как выглядят деревья после урагана.

Конечно, это будут меньшие экземпляры, но если у вас есть надежные подсчеты данных только для большинства данных, когда инструмент смотрит на изображение дерева после урагана, он будет полагаться и чрезмерно взвешивать данные из большинства здоровых данных дерева. установленный. Это может привести к ошибкам.

2. Недостаточное разнообразие

Отсутствие надежных данных по широкому кругу категорий требуется, чтобы инструмент мог обрабатывать текущие изменения в среде набора данных.

Например, предположим, что вы создаете инструмент визуального анализа, который просматривает изображения контейнеров для хранения. Затем, внезапно, была произведена модернизация системы камер. Это неизбежно повлияет на производительность инструмента.

Мир - динамичное место. Необходимо учитывать текущие и будущие атрибуты клиентов, среды, отношения и т. Д., Чтобы гарантировать, что инструменты могут приспособиться к этим изменениям.

3. Недооценка сложности поиска данных

Часто у фирм есть много данных большинства, которые они хотят классифицировать, и возникает проблема, когда им нужно добыть данные меньшинства.

Например, предположим, что вы создавали инструмент визуального анализа, который просматривает изображения смартфонов. У вас может быть миллион изображений из социальных сетей в самых разных категориях, но чего у вас нет, так это всех изображений, которые люди не загружают.

Я имею в виду, что люди обычно публикуют в социальных сетях изображения, которые им нравятся, с относительно хорошим качеством и четкостью.

Однако, если ваш инструмент пытается просмотреть изображения с мобильного телефона, есть много размытых, переэкспонированных, наклонных и т. Д. Эти изображения трудно найти, потому что где вы найдете тестовые изображения меньшинств, которые люди не публикуют?

Фирмы часто недооценивают количество пробелов в своих данных, для заполнения которых потребуются ресурсы. Таким образом, хороший партнер по машинному обучению не только поможет вам организовать данные, которые у вас есть, но и поможет вам получить данные, которых у вас нет.

4. Наконец, заблуждение «Рона Попейла».

Другими словами: заблуждение «поставил и забыл».

Фирмы часто забывают, что человеческий глаз по-прежнему необходим для постоянного управления и обслуживания.

Будь то результаты с низкой степенью достоверности, обработка исключений, аудит или оптимизация с использованием данных подкрепления, эти текущие рабочие процессы являются ключом к поддержанию актуальности инструмента и обеспечению постоянного успеха.

organization harvesting data for AI training
Некоторые из распространенных проблем в обучении ИИ - недостаточный объем и недостаточное разнообразие.

4. Каковы последствия плохо организованного обучения ИИ?

Видья: У меня недостаточно пальцев на руках и ногах, чтобы сосчитать, сколько раз клиенты приходили к нам, потому что они недооценили планирование, стоимость и объем, необходимый для разработки своего инструмента машинного обучения.

Хуже всего то, что поскольку в основе любой программы лежат данные, клиенты могут потерять драгоценное время и деньги, поскольку им придется удалить свои исходные наборы данных и начать все сначала.

Если вы спросите группу генеральных директоров, все они скажут вам, что, по их мнению, использование ИИ является ключом к конкурентоспособности в будущем.

При этом очень небольшой процент компаний фактически составляет бюджет на ИИ или включает его в процесс стратегического планирования.

Таким образом, для тех фирм, которые откладывают деньги, у них обычно есть только один шанс заставить их работать.

Плохо организованное обучение ИИ иногда может означать, что у фирмы нет возможности реинвестировать после неудачной попытки. Это может означать, что они всегда будут догонять своих конкурентов.

5. На ваш взгляд, каковы наиболее важные примеры того, как данные обучения ИИ влияют на нас на социальном уровне?

Видья: Мы живем в то время в нашей истории, когда нарастает осознание предвзятости, запрограммированной в нашем обществе.

Раса, пол, возраст и многие другие ложные данные слишком долго использовались для принятия решений, и я бы сказал, что неоптимизированные варианты выбора мешали нам коллективным достижением.

Возьмем, к примеру, финансовую фирму, которая хочет использовать инструмент машинного обучения, чтобы помочь сузить круг соискателей.

Предположим, фирма использовала свои исторические данные о сотрудниках за 20 лет, чтобы определить тех сотрудников, которые получили наибольшее продвижение по службе, которые имели самые высокие оценки эффективности, а затем посмотрели, где они учились, какой у них был опыт до прихода в фирму и т. Д.

На первый взгляд, это может иметь большой смысл: «давайте посмотрим, кто добился успеха в нашей фирме, и наймем больше таких людей».

То, что ваш HR-инструмент не замечает, - это институциональная предвзятость, которая могла исторически повлиять на решения о найме и продвижении по службе.

  • У мужчин больше шансов получить продвижение по службе, чем у женщин.
  • Кавказцы с большей вероятностью будут опрошены и в конечном итоге приняты на работу по сравнению с цветными людьми.
  • И исторически меньшинства с низкими доходами недопредставлены в высших учебных заведениях и находятся в невыгодном положении по нескольким признакам, когда речь идет о поступлении в колледжи в школах первого уровня.

В этом примере набор данных был неполным, и внешние данные о производительности должны быть включены вместе с другими переменными выбора, такими как потенциал.

Магия намеренно созданного ИИ, созданного специально разветвленной командой, может помочь нам преодолеть предвзятость и слепые пятна.

Осознание того, что мы можем сделать машины умнее, чем мы, - это мощная и освобождающая вещь, если мы захотим.

6. Отличает ли и чем тот факт, что вы возглавляете компанию женщинами, от ваших конкурентов?

Видья: TechSpeed ​​всегда была организацией, возглавляемой женщинами.

Женщины составляют лишь 5% от всех руководителей и меньшинств на руководящем уровне. Женщин в сфере технологий практически не существует.

Именно по этой причине нас отличает то, что мы являемся бизнесом, принадлежащим женщинам из числа меньшинств. В отрасли, в которой преобладают мужчины, мы с гордостью демонстрируем, как женщины-лидеры могут предложить различные точки зрения и решения.

Мы занимаемся данными; Мы учим машины видеть мир таким, какой он есть, со всеми цветами и формами, которые он может предложить.

Наша организация отражает разнообразие точек зрения, которые мы стремимся найти в нашей работе.

Я мать трех девочек из смешанной семьи.

Мы говорим не о разнообразии и расширении прав и возможностей женщин, а о том, кто мы есть и как живем.

Poorly selected data can transfer human bias onto an artificially intelligent system
Плохо отобранные данные могут передать человеческую предвзятость в систему с искусственным интеллектом.

7. Теперь вернемся к данным обучения и взглянем на положительные стороны. Какую пользу от качества данных обучения приносят продукту ИИ, т. Е. Предприятиям, которым он принадлежит?

Видья: По сути, хорошо продуманные данные обучения означают меньше исключений и ошибок.

Основная причина инвестировать в машинное обучение и инструменты искусственного интеллекта - это возможность решать проблемы быстрее и надежнее.

Новички в отрасли ошибочно считают, что ИИ является самодвижущимся и может быть полностью автономным. Однако правда в том, что для большинства фирм по-прежнему будут существовать 10-20% ошибки и исключения.

Это ведро с низкой достоверностью или записями об исключениях - не проклятие, это возможность. Исключения можно обрабатывать и анализировать «вручную», а затем преобразовывать в новые или более совершенные правила или логику.

8. Какой процесс вы бы порекомендовали для непрерывного контроля качества данных? Когда, если вообще, вы бы порекомендовали перевести машинное обучение на полностью автономное функционирование? Заканчивается ли когда-нибудь обучение ИИ?

Видья: Конечно, тяжелая работа, которая требуется при первоначальной настройке ИИ или программы машинного обучения, сильно отличается от того, что необходимо для текущего обслуживания.

Мы видим, что наиболее эффективные текущие программы включают в себя своего рода постоянный аудит и обработку исключений.

Постоянный обзор обработки исключений и текущий аудит позволит выявить возможности и слабые места в программе.

Каждый без исключения проект и каждый набор данных выявляют нюансы, которые изначально не планировались, и иногда этим нюансам требуется время, чтобы выявиться.

Таким образом, планирование - это все, а план - ничто. Использование аудита позволяет плану оставаться гибким, а инструмент - гибким.

Хотя, конечно, есть исключения для очень простых инструментов, по большей части, когда дело доходит до ИИ, работа никогда не заканчивается, она просто развивается.

Рейтинг лучших компаний Интернета вещей (IoT)!
Найдите их здесь

9. И наконец, что вы прогнозируете для будущих тенденций в оптимизации данных обучения ИИ? На что следует обратить внимание компаниям, которые полагаются на ИИ?

Видья: Сейчас наблюдается всплеск готовых инструментов искусственного интеллекта / машинного обучения, и каждый день появляется все больше.

Доступ к инструментам самообслуживания позволяет компаниям любого типа экспериментировать и начинать использовать свои данные.

Это, конечно, отлично подходит для промышленности и бизнеса. Однако, как мы обсуждали ранее, без качественных данных и постоянной поддержки это может быть проблематично для тех, кто занимается своими руками.

Фирмы хотят запускать свои собственные программы, но у них редко есть лошадиные силы, чтобы организоваться и обработать наборы данных обучения.

Иногда это может привести к маленьким или недостаточным наборам данных и, в конечном итоге, к плохим моделям.

Вот где хороший партнер по поддержке данных может предоставить как перспективную, так и масштабируемую поддержку, чтобы помочь вести себя сзади.

Среди исследователей есть старая поговорка: чем больше вопросов вы задаете, тем на больше вопросов вы понимаете, что вам тоже нужны ответы.

По мере того, как компании стремятся создавать все более сложные программы машинного обучения, они будут продолжать обнаруживать, что имеющихся у них наборов данных, которые они использовали для начала работы, просто уже недостаточно.

Потребность в интеллектуальном анализе данных для заполнения логики ИИ будет продолжать расти. Чем более зрелая отрасль, тем выше осведомленность о данных, которых у нас нет.

Хотя это и не уникальное явление для искусственного интеллекта или машинного обучения, я думаю, что мы живем в такое историческое время, когда люди пересматривают свое мнение о своем бизнесе, своих клиентах и ​​своем сообществе.

Все предположения и ожидания, которые лежали в основе существующих продуктов, программ и стратегий, подвергаются переоценке.

Пришло время компаниям взглянуть на существующие и будущие инструменты искусственного интеллекта и машинного обучения свежим и всеобъемлющим взглядом.

Раньше это было необязательно, но теперь ожидается, что компании, которые не развиваются, останутся позади потребителей, которые безвозвратно повысили свои ожидания.


Спасибо, Видья!

Хотите вывести свое решение AI / ML на новый уровень? Свяжитесь с TechSpeed ​​через [адрес электронной почты защищен] или позвоните по телефону 503-291-0027.