Ako sa v Amerike mení každodenný život veľkých dát?

Myšlienka „veľkých údajov“ sa stala všadeprítomnou, ale čo je a ako mení spôsob života? Posadili sme sa s vedcom údajov, Harvardom PhD a nomináciou National Book Award Cathy O'Neil, aby sme to zistili.

CT: Začnime základmi - čo presne sú „veľké dáta“?

CO: Veľké údaje sú novým prístupom k predpovedaniu vecí. Presnejšie povedané, „veľké údaje“ je použitie náhodne zozbieraných údajov - napríklad ako prehľadávate prehliadačom alebo čo robíte na Facebooku - na odvodenie vecí o vás, napríklad toho, čo si kúpite alebo aké sú vaše politické vzťahy. Je to nepriamy spôsob zisťovania ľudí. Napríklad kamera, ktorá nás sleduje, sa nepýta: „Čo robíte?“ - len uvidí, čo robíme.

CT: A čo je to algoritmus?

CO: Algoritmy sú výpočty, ktoré [interpretujú] údaje, ktoré sa o vás zhromaždili, aby vytvorili predikciu. Pomyslite na to ako na matematickú rovnicu, ktorá sa pokúša odpovedať na otázku, ktorá je koncipovaná ako predpoveď, napríklad: „Chystá sa táto osoba niečo kúpiť?“ alebo „Chystá sa táto osoba niekoho hlasovať?“

CT: Prečo to práve teraz počujem?

CO: Pred „veľkými údajmi“ by štatistici robili drahé veci, ako je napríklad dopyt po ľuďoch, aby zistili budúcnosť. Napríklad, kladenie otázok ľuďom priame otázky ako: „Pre koho chcete hlasovať?“ Teraz sa čoraz viac spoliehame na „dátový výfuk“, ktorý nazýva údaje, ktoré sa o vás neustále zhromažďujú, aby z vás odvodil veci.

Pred „veľkými údajmi“ mali spoločnosti iba divoké odhady. Teraz máme lepšie ako divoké odhady. Prekvapujúce je, že väčšina veľkých dátových algoritmov je veľmi nepresných a nie je dôvod si myslieť, že majú pravdu. Ale sú lepšie ako divoké odhady. A to je dôvod, prečo veľké dáta vzlietli tak, ako majú.

CT: Ak sú nepresné, čo odzrkadľujú?

CO: Chybné súbory údajov, ktoré ich kŕmime. Algoritmy nepoznajú nič, čo im povieme. Takže keď máme nerovnomerné údaje a kŕmime to algoritmom alebo skreslenými údajmi, bude si myslieť, že je to realita.

Ailsa Johnson / © Culture Trip

CT: Čo je to skutočný príklad?

CO: Príkladom môže byť to, že v Spojených štátoch je čiernych ľudí päťkrát pravdepodobnejšie zatknutých za fajčenie ako bielych ľudí. Nie je to tak preto, že čierni ľudia fajčia v banke častejšie - obe skupiny fajčia v banke rovnakou rýchlosťou. Číňania sú za to oveľa pravdepodobnejšie zatknutí. Ak to podáte algoritmu, ktorý robíme, správne usúdime, že čierni ľudia budú v budúcnosti oveľa pravdepodobnejšie zatknutí za fajčiarsky hrniec. A potom poskytne čiernym ľuďom vyššie skóre rizika za trestnú činnosť, čo má vplyv na odsúdenie za trestné činy.

Ďalším príkladom je myšlienkový experiment. Použijem Fox News, pretože Fox News má nedávno erupcie súvisiace s vnútornou kultúrou sexizmu. Experiment je: „Čo by sa stalo, keby sa spoločnosť Fox News pokúsila použiť svoje vlastné údaje na vytvorenie algoritmu strojového učenia, aby v budúcnosti najala ľudí?“

Povedzme, že hľadáme napríklad ľudí, ktorí boli úspešní v spoločnosti Fox News. Závisí to od toho, ako by ste definovali úspech, ale zvyčajne by ste sa pozreli na ľudí, ktorí získajú povýšenie, povýšenie alebo zostanú na dlhú dobu. Podľa ktoréhokoľvek z týchto opatrení by údaje odzrkadľovali, že ženy v spoločnosti Fox News neuspejú. Ak by sa použil ako najímací algoritmus, šíril by sa tento problém. Pozrela by sa na skupinu žiadateľov a uviedla by: „Nechcem najímať žiadne ženy, pretože tu nie sú úspešné. Nie sú to dobré nájmy. ““ A nemusí to byť len Fox News - každá firemná kultúra má zaujatosť. Keď vložíte údaje algoritmu, algoritmus zaujme toto šírenie. Naďalej posilňuje predsudky, ktoré už v spoločnosti existujú.

CT: Sú predsudky úmyselné?

CO: Nemyslím si, že vedci sa snažia vytvoriť sexistické alebo rasistické algoritmy. Algoritmy strojového učenia sú však výnimočne dobré pri zachytávaní relatívne jemných vzorcov a ich šírení. Vedci to nie sú niečo, čo vedci úmyselne robia, ale je to predsudok.

CT: Akú úlohu hrajú v našom každodennom živote nepresné algoritmy?

CO: Používajú sa pri rôznych rozhodnutiach o živote ľudí - všetko od prijatia na vysokú školu po prácu.

Existujú algoritmy, ktoré rozhodujú o tom, ako bude polícia susediť, a algoritmy, ktoré rozhodujú o tom, ako sudcovia odsúdia obžalovaných. Existujú algoritmy, ktoré rozhodujú o tom, koľko budete platiť za poistenie, alebo aký druh APR [úroková sadzba] dostanete na svojej kreditnej karte. Existujú algoritmy, ktoré rozhodujú o tom, ako sa vám darí vo vašej práci a ktoré sa používajú na určenie zvyšovania miezd. Existujú algoritmy na každom kroku od narodenia až do smrti.

CT: Takže kde nás to opúšťa?

CO: Skočili sme do éry veľkých dát a pri každom probléme, ktorý máme, sme hodili algoritmy, za predpokladu, že tieto algoritmy musia byť spravodlivejšie ako ľudia - ale v skutočnosti sú rovnako nespravodlivé ako ľudia. Musíme robiť lepšie.

Kliknite sem a prečítajte si druhú časť nášho rozhovoru s Dr. O'Neilom. Jej kniha Zbrane matematického ničenia: Ako veľké dáta zvyšujú nerovnosť a ohrozujú demokraciu, je teraz k dispozícii.