Как подходът към интелигентен подход към изкуствения интелект ограничава пристрастните набори от данни

Предубедени набори от данни и етичен AI

Решенията, задвижвани от изкуствен интелект, се нуждаят от набори от данни, за да бъдат ефективни. И създаването на тези набори от данни е изпълнено с проблем с имплицитно пристрастие на систематично ниво. Всички хора страдат от пристрастия (както съзнателни, така и несъзнателни). Предубежденията могат да приемат различни форми: географски, езикови, социално-икономически, сексистки и расистки. И тези систематични пристрастия са изпечени в данни, което може да доведе до продукти на AI, които увековечават и увеличават пристрастията. Организациите се нуждаят от внимателен подход, за да смекчат пристрастията, които се промъкват в наборите от данни.

Примери, които илюстрират проблема с пристрастията

Един забележителен пример за пристрастия към този набор от данни, който събра много негативна преса по това време, беше решението за четене на автобиография, което предпочиташе кандидатите от мъжки пол пред жените. Това е така, защото наборите от данни на инструмента за набиране на персонал са разработени с помощта на автобиографии от последното десетилетие, когато по-голямата част от кандидатите са били мъже. Данните бяха пристрастни и резултатите отразяваха това пристрастие. 

Друг широко разпространен пример: На годишната конференция за разработчици на Google I/O Google сподели предварителен преглед на задвижван от AI помощен инструмент за дерматология, който помага на хората да разберат какво се случва с проблемите, свързани с тяхната кожа, коса и нокти. Асистентът по дерматология подчертава как AI се развива, за да помогне в здравеопазването - но също така подчерта потенциала за пристрастие да се промъкне в AI в резултат на критики, че инструментът не е подходящ за цветни хора.

Когато Google обяви инструмента, компанията отбеляза:

За да сме сигурни, че изграждаме за всички, нашият модел отчита фактори като възраст, пол, раса и типове кожа – от бледа кожа, която не почернява, до кафява кожа, която рядко изгаря.

Google, Използване на AI за намиране на отговори на често срещани кожни заболявания

Но в статия във Vice се казва, че Google не успя да използва приобщаващ набор от данни:

За да изпълнят задачата, изследователите са използвали набор от данни за обучение от 64,837 12,399 изображения на 3.5 90 пациенти, разположени в две държави. Но от хилядите кожни състояния, представени на снимката, само XNUMX процента идват от пациенти с тип V и VI по Фицпатрик – тези, представляващи кафява кожа и тъмнокафява или черна кожа, съответно. XNUMX процента от базата данни е съставена от хора със светла кожа, по-тъмно бяла кожа или светлокафява кожа, според проучването. В резултат на предубеденото вземане на проби, дерматолозите казват, че приложението може в крайна сметка да диагностицира прекалено или недостатъчно хора, които не са бели.

Vice, новото приложение за дерматология на Google не е предназначено за хора с по-тъмна кожа

Google отговори, като каза, че ще прецизира инструмента, преди да го пусне официално:

Нашият помощен инструмент за дерматология, задвижван от AI, е кулминацията на повече от три години изследвания. Тъй като работата ни беше представена в Nature Medicine, ние продължихме да развиваме и усъвършенстваме нашата технология с включването на допълнителни набори от данни, които включват данни, дарени от хиляди хора, и милиони по-курирани изображения, свързани с кожата.

Google, Използване на AI за намиране на отговори на често срещани кожни заболявания

Колкото и да се надяваме, че програмите за изкуствен интелект и машинно обучение могат да коригират тези отклонения, реалността остава: те са само като умен тъй като техните набори от данни са чисти. В актуализация на старата поговорка за програмиране боклук в/боклук навън, AI решенията са толкова силни, колкото качеството на техните набори от данни от самото начало. Без корекция от програмисти, тези набори от данни нямат фонов опит, за да се поправят сами – тъй като просто нямат друга референтна рамка.

Отговорното изграждане на набори от данни е в основата на всичко етичен изкуствен интелект. И хората са в основата на решението. 

Внимателният AI е етичен AI

Пристрастията не се случват във вакуум. Неетичните или предубедени набори от данни идват от приемането на грешен подход по време на етапа на разработка. Начинът за борба с грешките от пристрастия е да се приеме отговорен, ориентиран към човека подход, който мнозина в индустрията наричат ​​Mindful AI. Mindful AI има три критични компонента:

1. Внимателният AI е ориентиран към човека

От самото начало на AI проекта, на етапите на планиране, нуждите на хората трябва да бъдат в центъра на всяко решение. А това означава всички хора – не само подмножество. Ето защо разработчиците трябва да разчитат на разнообразен екип от хора, базирани в световен мащаб, за да обучат AI приложенията да бъдат приобщаващи и без пристрастия.

Краудсорсингът на набори от данни от глобален, разнообразен екип гарантира, че пристрастията се идентифицират и филтрират рано. Хората с различни етноси, възрастови групи, полове, нива на образование, социално-икономически произход и местоположения могат по-лесно да забележат набори от данни, които предпочитат един набор от ценности пред друг, като по този начин премахват непреднамерените пристрастия.

Разгледайте гласовите приложения. Когато прилагат внимателен подход на ИИ и използват силата на глобалния набор от таланти, разработчиците могат да отчетат езикови елементи като различни диалекти и акценти в наборите от данни.

Създаването на ориентирана към човека рамка за проектиране от самото начало е от решаващо значение. Това е дълъг път, за да се гарантира, че генерираните, курирани и етикетирани данни отговарят на очакванията на крайните потребители. Но също така е важно хората да са в течение през целия жизнен цикъл на разработка на продукта. 

Хората в цикъла също могат да помогнат на машините да създадат по-добро AI изживяване за всяка конкретна аудитория. В Pactera EDGE, нашите екипи по проекти за AI данни, разположени в световен мащаб, разбират как различните култури и контексти могат да повлияят на събирането и курирането на надеждни данни за обучение на AI. Те разполагат с необходимите инструменти, от които се нуждаят, за да сигнализират за проблемите, да ги наблюдават и да ги коригират, преди базирано на AI решение да започне да работи.

Човекът в цикъла AI е проектна „предпазна мрежа“, която съчетава силните страни на хората – и техния разнообразен опит с бързата изчислителна мощност на машините. Това сътрудничество между хората и AI трябва да бъде установено от самото начало на програмите, така че предубедените данни да не формират основата на проекта. 

2. Внимателният AI е отговорен

Да бъдеш отговорен означава да гарантираш, че системите за изкуствен интелект са без пристрастия и че са основани на етика. Става дума за това как, защо и къде се създават данните, как се синтезират от системите за изкуствен интелект и как се използват при вземане на решения, решения, които могат да имат етични последици. Един от начините бизнесът да направи това е да работи с недостатъчно представени общности, за да бъде по-приобщаващ и по-малко предубеден. В областта на анотациите на данните, ново изследване подчертава как модел на многозадачност с множество анотатори, който третира етикетите на всеки анотатор като отделна подзадача, може да помогне за смекчаване на потенциални проблеми, присъщи на типичните методи за истинност, при които разногласията между анотаторите могат да се дължат на недостатъчно представяне и могат да бъдат игнорирани при агрегирането на анотации към една основна истина. 

3. Доверен

Надеждността идва от това, че бизнесът е прозрачен и обясним в това как се обучава моделът на AI, как работи и защо препоръчват резултатите. Бизнесът се нуждае от опит с локализацията на AI, за да даде възможност на своите клиенти да направят своите приложения за AI по-приобщаващи и персонализирани, като зачитат критичните нюанси на местния език и потребителското изживяване, които могат да направят или разрушат доверието на AI решение от една страна в друга . Например, бизнесът трябва да проектира своите приложения за персонализирани и локализирани контексти, включително езици, диалекти и акценти в гласови приложения. По този начин едно приложение носи същото ниво на изтънченост на гласовото изживяване на всеки език, от английски до недостатъчно представени езици.

Справедливост и разнообразие

В крайна сметка, съзнателният AI гарантира, че решенията са изградени върху справедливи и разнообразни набори от данни, където последствията и въздействието на определени резултати се наблюдават и оценяват, преди решението да излезе на пазара. Като внимаваме и включваме хора във всяка част от разработването на решението, ние помагаме да гарантираме, че моделите на AI остават чисти, минимално предубедени и възможно най-етични.

Какво мислите?

Този сайт използва Akismet за намаляване на спама. Научете как се обработват данните за коментарите ви.