siirry sisältöön

Tiesitkö, että tekoälyn kouluttaa matalapalkatut ihmiset?

Laajat kielimallit ja operaatiot niiden takana. On yleinen luulo, että tekoäly oppisi itse, se ei pidä paikkaansa.

Lukemattomat ihmiset tekevät datan merkitsemistyötä matalin palkoin, jotta tekoälyn syväoppiminen kehittyisi lähemmäs ihmisen tapoja ajatella.

Sisällysluettelo


💡
Tämä on pitkä artikkeli, mutta lukemalla saat tietoa mekanismeista tuki- sekä tekoälyn taustalla. Lukuaika noin 20 minuuttia.

Jokaisen koneen takana on ihminen, joka saa koneen rattaat pyörimään - on kehittäjä, joka rakentaa (koodaa) koneen, inhimilliset arvioijat, jotka arvioivat perusosien suorituskykyä, jopa ihmiset, jotka rakentavat koneen fyysiset osat. Tekoälyjärjestelmiä käyttävien laajojen kielimallien tapauksessa tämä ”ihminen” on eri puolilta maailmaa tulevat käyttäjälle näkymättömät datan merkitsijät, jotka manuaalisesti kommentoivat tietokokonaisuuksia, jotka kouluttavat koneen tunnistamaan, mikä on sininen väri, mitä esineitä valokuvassa on tai onko chatbotin vastaus riittävä.

Laajojen kielimallien nopean laajentumisen ja kehittymisen myötä tekoälyn kehittäjät ovat pyrkineet kehittämään syväoppimis sekä koulutusmenetelmiä nopeammiksi ja älykkäämmiksi. Käymme läpi datan merkitsemistä osana tekoälyn toimitusketjua, luomme katsauksen datan merkitsemisen taustalla oleviin työntekijöihin ja siihen, miten tämä ekosysteemi toimii.

Laajojen kielimallien koulutusvaiheet

Laajat kielimallit ovat kehittyneitä koneoppimismalleja, kuten GPT-4, jotka on suunniteltu ymmärtämään ja tuottamaan sisältöä ihmisen tavoin. Laajoja kielimalleja koulutetaan valtavilla tietomäärillä, jotta ne voivat tallentaa monimutkaisia kielellisiä kokonaisuuksia ja suorittaa monenlaisia luonnolliseen kieleen liittyviä tehtäviä. Niitä voidaan kouluttaa tiettyihin tarkoituksiin, kuten chatbotin vastausten antamiseen, tekstin ennustamiseen sähköpostikirjoituksessa tai tekstimateriaalin tai sanallisen aineiston tiivistämiseen.

Teollisella ja muutoin tasolla laajan kielimallin taustalla olevat kolme koulutusvaihetta ovat: 1) itseohjautuva oppiminen; 2) hienosäätö (tai ohjattu oppiminen); 3) vahvistusoppiminen.

Kielimallin koulutusvaiheet

Itseohjautuva oppiminen on vaihe, jossa perusmalli rakennetaan raa'asta, merkitsemättömästä mutta kuratoidusta (sisällön kerääminen uudeksi sisältöyksiköksi) datasta, tyypillisesti massiivisesta tietokannasta, kuten verkon datan louhinnasta tai kuratoidusta tietokannasta.

Seuraavissa hienosäätövaiheissa (valvottu oppiminen ja vahvistusoppiminen) on vuorossa ihmistyövoiman käyttö. Valvotussa oppimisessa tekoälymallia koulutetaan merkittyjä tietokokonaisuuksia vasten, joiden elementit on merkitty ihmisen tekemillä merkinnöillä, jotta malli oppii ”oikeat” vastaukset vääristä.
Tätä täydennetään ihmisten antamasta palautteesta tapahtuvalla vahvistavalla oppimisella, johon kuuluu muun muassa se, että ihmisten arvioijat luovat valvotun harjoitustietokannan määritellyistä kehotuksista, vastauksista ja ihmisten arvioimista sijoituksista, joita vasten kielimallin on harjoitettava itseään uudelleen. Valvotun harjoittelutietokannan luomiseksi tietojen merkitsijät merkitsevät raakadatapisteet manuaalisesti (kuvat, teksti, anturitiedot jne.)
”merkinnöillä”, jotka auttavat tekoälymallia tekemään ratkaisevia päätöksiä, kuten autonomisen ajoneuvon erottamaan jalankulkijan pyöräilijästä.

Malleja voidaan jatkuvasti uudelleenkouluttaa ihmisten antaman palautteen avulla, jotta voidaan edelleen hienosäätää riittämättömiä käyttäytymismalleja ja tehdä mallista entistä kestävämpi, kuten OpenAI:n kyky havaita sekä estää käyttöjärjestelmän murrot.  Laadukkaat tietokokonaisuudet, joiden tukena on ihmisten tekemä merkintä, ovat ratkaisevan tärkeitä tässä koulutus- ja uudelleenkoulutusprosessissa, jotta voidaan varmistaa tarkat, johdonmukaiset ja jopa täydelliset tulokset. Heikkolaatuiset tiedot voivat johtaa siihen, että malli tuottaa virheellisiä tai epäsuotuisia tuloksia, kuten puolueellisia vastauksia, jotka usein kuitenin huvittavat käyttäjiä

Valvottujen harjoitustietokantojen takana on kaksi luokkaa tietojen merkitsijöitä: ei-ainekohtaiset tietojen merkitsijät, jotka merkitsevät yleisiä, laajamittaisia tietokantoja, ja ”asiantuntijatietojen” merkitsijät, jotka merkitsevät aineistokohtaisia tietokantoja. Ensimmäisen tyyppinen tietojen merkitsijä on yleisin. Siinä eri puolilta maailmaa palkatut työntekijät käyvät läpi tuntikausia hyvin kirjavaa sisältöä, ja tekevät merkintöjä tietokokonaisuuksiin, joita voidaan käyttää useimpien tekoälytyyppien kouluttamiseen. Nämä tietokokonaisuudet voidaan merkitä ChatGPT:n kaltaisia chat-robotteja, autonomisia ajoalgoritmeja tai kuvasta tekstiksi -generaattoreita varten. Toinen luokka tietojen merkitsijöitä on kapeampi tyyppi, joka edellyttää aihepiirin asiantuntijoita, kuten lääkäreitä, jotka merkitsevät lääketieteellisiä tietoja, tai lakimiehiä, jotka merkitsevät oikeudellisia vastauksia. Lakiala tuleekin olemaan henkilön kannalta epäsuotuisessa kärjessä, joka on korvattavissa keinoälyn eri muodoin.

Vaikka molemmat tiedon merkitsijöiden ryhmät suorittavat teknisesti samantyyppistä työtä (kuvien tai tekstin merkitseminen), ne eroavat toisistaan asiantuntijatiedon tason suhteen, jota alakohtaiset merkintävaatimukset saattavat edellyttää. 

Tiedon merkitseminen ja tekoälyn toimitusketju

Laadukas harjoitteluaineisto on luonnollisesti avainasemassa, kun luodaan suorituskykyistä laajaa kielimallia. Jotkut kehittäjät ovat jopa todenneet, että itse algoritmilla on paljon vähemmän merkitystä kuin harjoitteludatalla.

Sillä vankkojen harjoitelutietoaineistojen tulostiedot ovat se, mikä tosiasiallisesti tekee laajan kielimallin suorituskyvyn. Lukuisat yritykset ovat ryhtyneet helpottamaan tietojen merkitsemisen kysyntää tekoälyn toimitusketjussa. Nämä data-alan yritykset voidaan luokitella kahteen erityyppiseen datan merkintätyön työmarkkinapaikkaan: 1) työvoimaalustat, jotka mainostavat erilaisia töitä, kuten Amazonin Mechanical Turk, ja 2) hiljattain syntyneet alustat, jotka on omistettu nimenomaan datan merkkaustöille, kuten Surge AI, Scale AI, iMerit ja Karya.

Amazonin ylläpitämän kaltaiset mikrotyöläisalustat toimivat ikään kuin internetin työvoiman markkinapaikkana, jossa työnantajat voivat julkaista erilaisia tehtäviä, joiden suorittamisesta maksetaan hinta, kuten käännöspalvelut, valokuvan värien merkitseminen tai lauseen uudelleenkirjoittaminen. Erityisesti tietojen merkintätöihin erikoistuneet alustat, kuten Scale AI:n tytäryhtiö Remotasks, toimivat samalla tavalla ja antavat työntekijöille maksullisia merkintätehtäviä, jotka vaihtelevat laajuudeltaan ja mittakaavaltaan (yksi tehtävä voi olla 100 valokuvan merkitseminen, toinen taas tuntikausia kestävän videon kohteiden merkitseminen autonomisen ajoneuvon algoritmia varten). 

Nämä digitaaliset työvoima-alustat ovat käytännössä vaihtoehto suurten työntekijämäärien palkkaamiselle ja hallinnoinnille sopimussuhteen kautta, ja sen sijaan ne ulkoistavat tehtäviä tilattaville ihmistyöntekijöille ilman muodollista työnantaja-työntekijä-suhdetta. Useimmat näistä alustoista nimenomaisesti toimivat tällaisella työvoiman joukkoistamismallilla, jossa työt ulkoistetaan jatkuvasti vaihtuvalle ”kappaletyöntekijöiden” verkostolle.

Koska valvottuun harjoitteluun tarvitaan valtavia määriä leimattua ja merkittyä dataa, jota tekoälyyritykset, kuten OpenAI, joka tekee sopimuksia Scale AI:n datapalveluista, ja Microsoft, joka tekee sopimuksia Surge AI:n kanssa, vaativat, tekoälyn toimitusketju on levinnyt laajalle Keniaan, Intiaan, Filippiineille ja Venezuelaan, joissa on edullisempaa työvoimaa ja sitä on saatavilla paljon. Kuten jäljempänä käsitellään, tämä on johtanut hyvin samanlaiseen tilanteeseen mitä vaatealalla on takavuosina totuttu näkemään, jossa työntekijät ovat korvattavissa välittömästi ja yritykset maksavat heille monissa tapauksissa vain 1-2 dollaria tunnilta.

Tietomerkintätyön ekosysteemin taustaa:


OpenAI:n käynnistämä tekoälykilpailu saa tekoälyn kehittäjät keskittymään siihen, että he saavat merkityt, valvotut harjoitteluaineistot mahdollisimman nopeasti ja mahdollisimman halvalla. Tekoälykehittäjät käyttävät innokasta työvoimaa hyödykseen, jotta he saavat voimaa leimatun harjoitusdataan ja sen kysyntään. Viestinnässä retoriikka on korporaatiomaailmasta tuttua, jossa puhutaan nousevista työllistymismahdollisuuksista ja minimipalkan ylittävistä palkoista (monissa maissa ei ole määritelty minimipalkkaa). Asiaa voidaan käsitellä eri kulmista, mutta samankaltaisissa tilanteissa, joissa työntekijät joutuvat tyytymään epävakaaseen työmäärään, alle markkinatason palkkoihin sekä ilman merkittävää työlainsäädäntöä toteutuviin työoloihin, kun taas suuret työtä tarjoavat toimijat eivät kohtaa menettelyssään merkittäviä riskejä.

Työntekijät eivät tiedä työnsä kohdetta:


Työntekijän ja tekoälykehittäjän välisiin valtasuhteisiin vaikuttaa avoimuus tai sen puute toimitusketjusuhteissa, mitkä vallitsevat datan merkinnän työvoima-alustojen ja niiden suurten asiakkaiden välillä, jotka vaativat korkealaatuisia merkittyjä tietokokonaisuuksia. The Vergen vuonna 2023 tekemässä tutkimuksessa havaittiin, että Kenian datan merkitsijät, jotka suorittivat merkintätehtäviä Remotasksille, eivät tienneet, että Remotasks oli itse asiassa tunnetumman datayhtiön Scale AI:n tytäryhtiö, jolla on asiakkaina muun muassa OpenAI, Meta, Microsoft ja jopa Yhdysvaltain valtion virastoja. Remotasksia ei myöskään mainita missään ScaleAI:n verkkosivustolla eikä ScaleAI:ta Remotasksin verkkosivustolla, joten heidän liikesuhteensa viestitään huolellisesti julkisuudessa.

Tämä tilanne datayhtiöiden ja niiden tytäryhtiöiden läpinäkymättömien liikesuhteiden ympärillä on yleinen suuntaus, sillä Surge AI:n, vastaavanlaisen datayhtiön, on myös spekuloitu olevan väitetty emoyhtiö pienemmille alustoille Taskup.ai ja DataAnnotation.tech, joita se käyttää palkatakseen datan merkkaajia. Tämä pidentää toimitusketjun suhdetta loppuasiakkaan (Open AI) ja sen tietokokonaisuuksia toimittavien työntekijöiden välillä. Jotta nämä liikesuhteet pysyisivät poissa julkisuudesta, datan merkitsijöitä kielletään paljastamasta asioita työstään.

Itse asiassa datan merkitsijät ovat täysin erillään heidän työvoimaansa vaativista tekoälyn kehittäjistä, ja tämä tekoälyn toimitusketjun suhteiden tila, joka on nähty lukemattomia kertoja muillakin teollisuudenaloilla, kuten juuri vaatteiden tai puolijohteiden toimitusketjussa, mahdollistaa työntekijöiden tarkan valvonnan sekä vastuista aiheutuvien työnantajariskien minimoinnin tai poiston.

Työntekijöille ei anneta kovinkaan kattavia tietoja heidän työsuhteestaan ja siitä, mitkä tahot heidän työtään hyödyntää. Tilanteeseen vaikuttaa sekin, että jotkut työntekijät eivät tienneet, mihin he edes merkitsivät tietoja. Vaatekappaleiden merkitseminen, jalankulkijoiden erottaminen videolta tai dialogin luokittelu olivat kukin pieniä osia suuremmasta projektista - ja itse projektit ovat usein nimetty asiasta irrotettujen koodinimien, kuten ”Crab Generation” tai ”Pillbox Bratwurst”, taakse.

Automaattiseen päätöksentekoon liittyviä huomioita

Selonteko puuttuu myös algoritmeista, jotka tarkkailevat työntekijöiden tuottavuutta ja tekevät tärkeitä päätöksiä heidän työnjakonsa ja palkkansa suhteen. Algoritmijohtaminen, joka määritellään joukoksi teknisiä valvontatekniikoita, joilla hallitaan työvoimaa ja tehdään automaattisia tai puoliautomaattisia päätöksiä työntekijöiden käyttäytymisestä, otetaan yhä useammin käyttöön nykypäivän työpaikoilla. Yritykset luottavat algoritmeihin valvoakseen ja seuratakseen työntekijöiden tuottavuutta ja suorituskykyä työpaikalla, esimerkiksi "johtajaohjelmistojen” muodossa, kuten etätyöntekijöiden hiirenseurantalaitteina, Amazonin varastotyöntekijöiden ajastimina ja kasvontunnistusohjelmistoina, joilla seurataan työntekijän ilmeitä tai mielialaa työpaikalla. ALustatalouden yhteydessä näillä algoritmeilla on valta tehdä työntekijöihin vaikuttavia kriittisiä päätöksiä, kuten keskeyttää jakelukuljettajan tili ilman selitystä tai päättää, kuinka paljon Bolt, Yango tai Uber-kuljettajalle maksetaan kyydistä vuorokaudenajasta riippuen.

Bottien hallinnoima: työntekijöiden valvonta

PI, Worker Info Exchange ja App Drivers and Couriers Union ovat muodostaneet koalition haastaakseen melko suuren valvonnan, jota näiden talousmallien tekijät kohtaavat.

Monet dataa merkkaavat työvoima-alustat toimivat tällaisilla algoritmisilla päätöksentekomalleilla sen sijaan, että ihminen hallinnoisi työvoimaprosessin jokaisen vaiheen hallintoa, aina vaikeaselkoisista työpaikkojen jakojärjestelmistä dynaamisiin ylihinnoittelumalleihin, joilla määritetään palkat.

Työntekijöiden valvonta

Tietojen merkintään liittyvät työalustat käyttävät vaihtelevasti työpaikkavalvontaa, mutta Venezuelassa ja Kolumbiassa työskentelevät työntekijät ovat raportoineet joutuneensa työskentelyn aikana tiukan ajastuksen alaisiksi, jossa ei useinkaan ole otettu huomioon vessataukoja, jotta voidaan valvoa, kuinka tehokkaasti he suorittavat etiketöintitehtävänsä. Jos he eivät saaneet tehtävää suoritettua annetussa ajassa, tehtävä siirrettiin uudelleen muiden työntekijöiden tehtäväkantaan. 

MIT Technology Review testasi tätä itse luomalla tilin Remotasks-verkkopalveluun ja huomasi näytön vasemmassa yläkulmassa olevan ajastimen, jossa ei kuitenkaan ollut selkeää määräaikaa tai ilmeistä tapaa keskeyttää sitä vessassa käyntiä varten. Tämä on tulkittu ”passiivisuusajastimeksi”, joka siirtää tehtävän takaisin alustan tehtäväpooliin, jotta joku muu voi ottaa sen vastaan, jos työntekijä jättää sen keskeneräiseksi liian pitkäksi aikaa. Tällainen yksityiskohtainen valvonta aiheuttaa työntekijöille reaktion kilpailla muita vastaan, mikä mahdollistaa järjestelmän, jonka avulla yritykset saavat tuotoksensa mahdollisimman nopeasti. Työntekijöillä ei ole käsitystä siitä, miten tämä valvonta-algoritmi tarkalleen ottaen toimii, joten tietovaje vähentää heidän mahdollisuuksiaan kyseenalaistaa sen käyttö.
Lisäksi tiettyjen merkintätehtävien monimutkaisuus, kuten sen merkitseminen, pitäisikö peilissä näkyvä paita merkitä vaatekappaleeksi, vie eri ihmisiltä eri määrän aikaa tulkita.

Työpaikan vakaus

Algoritmisten hallintatyökalujen, kuten passiivisuusvalvontalaitteiden, intensiivinen käyttö, joka luo työntekijöille kilpailuasetelmaa, ylläpitää työn tuottavuutta työn tilaajien eduksi. Allokointialgoritmit määrittävät, mitkä työntekijät voivat vaatia mitäkin tehtäviä esimerkiksi suoritustensa perusteella. Joillakin Appenin kaltaisilla tietojen merkitsemiseen tarkoitetuilla työalustoilla ei ole selkeää järjestelmää sille, milloin tehtävät ilmestyvät jonoon, joten alustoilla työskentelevien on jatkuvasti seurattava näyttöjään lunastaakseen tehtävän heti, kun se ilmestyy.

Tämä työmalli tuottaa työoloja, joihin datan merkkaajien on sopeuduttava.
Työntekijöille ei anneta tietoja työnjakoalgoritmeista, jolloin ei ole mahdollista työntekijät voivat kyseenalaistaa nämä ehdot neuvoteltaviksi tai muutoin ryhtyä toimiin, koska he eivät tiedä, miten algoritmit toimivat vaan haarukoivat tai arvaavat missä tilanteissa niitä käytetään.

Esimerkkejä algoritmisen johtamisen menettelyistä

Yritykset seuraavat yhä useammin työntekijöitään ja käyttävät sinällään vastuuvapaita algoritmeja tehdäkseen merkittäviä päätöksiä, joihin työntekijät eivät voi juurikaan vaikuttaa.

Vaikka alustatalouden työntekijät, sisällöntuottajat ja varastotyöntekijät ovat algoritmien käytön alla, pitkälle kehitetyt valvontakäytännöt ovat levittäytymässä monille toimialoille ja työpaikoille.

Tämä edellä kuvattu malli on johdannainen laajemmasta hallintomallista, jota länsimaiset yritykset suosivat siirtäessään työvoimaansa eri maihin ja alueille, joissa työntekijöiden oikeussuoja ja edut ovat heikommat - työvoimakustannusten kokonaisetu on suuri. Datan merkkaajien tilanne on kuvailtavissa ehkä viritetyksi, siellä heidän on vaikea 1) kilpailla saatavilla olevista tehtävistä ja 2) tehdä päivässä riittävästi tehtäviä, jotta he voivat ansaita toimeentuloon riittävän palkan. Eräs toinen Keniassa toimiva merkitsijä kertoi, että tehtävät olivat loppumassa alueelta. Tekoälyn toimitusketju, jonka etuna on, että sillä ei tarvitse olla paikallista infrastruktuuria, on helppo siirtää aina edelleen halvemman työvoiman maihin, kuten Nepaliin ja Filippiineille. Tekoälyn toimitusketju on luonteeltaan erittäin joustava, joten se voi toimia tehtaana, jota voidaan muuntaa, muuntaa välittömästi uudelleen ja siirtää sinne, missä on oikea yhdistelmä taitoja, kaistaa ja alhaisia kustannuksia. Kun nämä osat (datan merkkaajat) siirtyvät tehtaassa, tekoäly-yrityksillä ei ole velvoitetta ilmoittaa työntekijöille hallintopäätöksistä, joiden mukaan ne siirtyvät uusille markkinoille jo muutaman kuukauden kuluttua.

Palkkojen nousumalli

On myös raportoitu algoritmeista, jotka asettavat dynaamisia palkkoja dataa leimaavilla työvoima-alustoilla. Esimerkiksi Remotask-työntekijät arvelivat, että heidän palkkansa saattaa määräytyä algoritmisesti, ja tämän vahvistivat Scale AI:n entiset työntekijät, jotka kertoivat, että palkka määräytyy tehokkuuteen perustuvan mekanismin avulla, joka mukautuu sen mukaan, kuinka monta tekijää on käytettävissä ja kuinka nopeasti tietoja tarvitaan. Tämä on hyvin dynaaminen hinnoittelumalli, jonka näemme usein Uberin kaltaisissa alustatalouden alustoissa, jotka käyttävät algoritmia kuljettajan palkan laskemiseen eri tekijöiden perusteella kuten ”kuljettajien välinen kysyntä” ja se, onko kyseessä ruuhka-aika.

Kummassakaan tapauksessa työn suorittavat eivät näe, miten dynaaminen hinnoittelualgoritmi laskee heidän palkkansa; vain yritys tietää, miten se todella tapahtuu. Tämä aiheuttaa muutoksia alustatalouden työntekijöille ja kaikki tiedämmekin että joskus vaikkapa Bolt kyyti on 12 euroa ja joskus 40 euroa. Työntekijät toimivat algoritmisesti kontrolloidussa ympäristössä. On ymmärrettävää että algoritmi on vaativa ymmärtää ja käsitellä, jolloin on harvinaista että työn suorittaja ymmärtäisi siitä edes yhtään mitään.

Paluu alustatalouteen

On ilmeistä, että datan merkitsemisen ekosysteemiin liittyvät asiat ovat samoja, joita olemme nähneet muussakin alustatyössä. Esim tiukat ajastimet, jotka koetaan paineistavaksi vessataukojen yms suhteen, joita on käytössä Amazonin varastotyöntekijöiden tai Facebookin sisältömoderaattoreiden työoloissa.

Tälläiseksi luotu työnantajan ja työntekijän välinen suhde luo kilpailullisen ympäristön, jossa ehtoja ei niinkään kyseenalaisteta muuta kuin poistumalla työstä.

Algoritmisen hinnoittelumallin lisäksi laajemmalla tasolla kyse on luonnollisesti siitä, standardoidun palkkamekanismin puuttuminen on hyöty suuryrityksille. Tämä näkyy maiden välisinä palkkaeroina (esim. Yhdysvaltojen palkka yhdestä tehtävästä verrattuna Kenian palkkaan) ja jopa maiden sisällä erityyppisten asiantuntijoiden palkkauksessa (esim. 23 dollaria tunnilta suomenkielisille asiantuntijoille verrattuna 5,64 dollariin bulgarialaisille asiantuntijoille). Kuitenkin esimerkiksi koodaustyössä maiden väliset palkkaerot ovat pienentyneet paljon.

Yhdysvalloissa työskentelevät kommentoijat saattavat ansaita samantyyppisestä työstä 10-25 dollaria tunnissa, kun taas kenialaiset kommentoijat ansaitsevat 2 dollaria tunnissa - työn hyödyntää sama yritys, eikä työssä ole (poislukien asiantuntijatasoa) paikallistuntemuksen vaatimuksia. Toukokuussa 2024 Nairobissa 97 datan merkitsijää, sisällön moderaattoria ja tekoälytyöntekijää kirjoittivat presidentti Bidenille avoimen kirjeen Yhdysvaltojen ja Kenian diplomaattisuhteiden 60-vuotispäivänä ja esittivät luettelon vaatimuksista, joilla puututtaisiin talousalueiden välisiin eroavaisuuksiin Yhdysvaltojen suurten teknologiayritysten toimitusketjuissa. He kertovat yksityiskohtaisesti työnsä luonteesta, kuten kuvien ja tekstin merkitsemisestä OpenAI:n generatiivisten tekoälytyökalujen, kuten ChatGPT:n, kouluttamiseksi. Jotta tekoäly tietää mikä on hyvää, sen on tiedettävä mikä ei ole hyvää. Datanmerkitsijöiden työhön kuuluu myös murhien ja mestausten, lasten hyväksikäytön ja raiskausten, pornografian ja eläinpornon katsominen.

Automaattinen tietojen merkitseminen

On tosiaan yleinen luulo, että tekoäly oppii itse asioita. Tietojen merkitsemisen automatisoimiseksi kuitenkin pyritään yhä enemmän lisäämään ja laajentamaan sen kapasiteettia sekä ulottuvuutta. Yksi tällainen automatisoitu menetelmä on avustettu merkintä, jossa käytetään koneoppimisalgoritmeja, jotka tunnistavat tiedoissa olevia malleja sekä suuntauksia ja näihin merkitään tietopisteet valmiiksi, minkä jälkeen ne toimitetaan ihmisarvioijille, jotka hyväksyvät tai hylkäävät ne. Toiminnallisesti tämä on vain hieman yksinkertaistettu versio nykyisestä ihmisen suorittamasta merkitsemisestä. 



Kommentit

Viimeisimmät