Det är ingen hemlighet att Google har blivit mer aktiv i forskning de senaste åren, särskilt eftersom den organiserade sig väsentligt tillbaka 2015. Den 22 september 2016 meddelade den att en öppen mjukvara som kan upptäcka objekten och inställning av en bild för att automatiskt skapa en bildtext som beskriver den. Naturligtvis har den inte samma kreativitet som människor gör för att skapa prosa inom bildtexten, men bildkodaren som annars kallas Inception V3 borde ha tagit uppmärksamhet av skäl som överstiger det ytliga "se på bildtexten den kan göra "motiv. Programvara som detta kan i själva verket vara en stegningsväg mot något större på vägen till mer avancerad artificiell intelligens.

Ögon kan se, men intelligens "uppfattar"

Konstgjord sikt har varit hos oss i mer än ett sekel. Någonting med en kamera kan se. Det är en mycket grundläggande typ av sak. Men även en blind man kan överträffa kamerans förståelse för vad den ser på. Fram till mycket nyligen kunde datorer inte enkelt och noggrant namnge objekten som hittades i bilder utan mycket specifika parametrar. Att verkligen säga att ett konstgjorda objekt har "vision" skulle innebära att den åtminstone har en konkret förmåga att specificera vad den tittar på, snarare än att bara titta på den utan att samla samman. På så sätt kan enheten reagera på sin miljö baserat på syn, precis som vi gör. Uppfattning är en absolut nödvändighet. Utan det är all mening vi har är värdelös.

Uppfattning genom automatisk bildtextning

Trots att vi i allmänhet tror att varje bild är värt tusen ord, delar Inception V3 inte nödvändigtvis den uppfattningen. Den automatiska bildtitlingsprogramvaran har mycket få saker att säga om vad den ser, men den har åtminstone en grundläggande konkret förståelse för vad som finns i ramen som presenteras för den.

Med denna rudimentära information har vi tagit ett steg mot mjukvarans förmåga att förstå visuella stimuli. Att ge en robot den här typen av kraft skulle göra det möjligt att reagera på sådana stimuli, vilket innebär att dess intelligens ligger precis under nivån hos de flesta grundläggande vattenlevande djur. Det kanske inte låter så mycket, men om du tittar på hur robotar gör just nu (när de testas utanför deras mycket restriktiva parametrar), kommer du att upptäcka att det här skulle vara ganska ett steg i intelligens jämfört med det amoebiska sättet på vilket de kan uppfatta sin egen omgivning.

Vad detta betyder för AI (och varför det är långt ifrån perfekt)

Det faktum att vi nu har programvara som (med 93 procents noggrannhet) kan bildvisningsbilder innebär att vi någonsin har övervunnit hindret att få datorer att känna sig för sina miljöer. Det betyder naturligtvis inte att vi är någonstans nära färdiga i den avdelningen. Det är också värt att nämna att starten V3 utbildades av människor över tiden och använder den information som den "lärde" för att dechiffrera andra bilder. För att få en sann förståelse för sin miljö måste man kunna uppnå en mer abstrakt uppfattningsnivå. Är personen i bilden arg? Är två människor kämpar? Vad är kvinnan på bänken som gråter om?

Ovanstående frågor representerar de saker vi frågar oss när vi möter andra människor. Det är den typ av abstrakta förfrågan som kräver att vi extrapolerar mer information än vad en bildtexterande doohickey kan göra. Låt oss inte glömma att glasyr på kakan vi gillar att kalla en känslomässig (eller "irrationell") reaktion på vad vi ser. Det är därför vi betraktar blommor vackra, avloppsavfallande och franska pommes frites. Det är någonting som vi fortfarande undrar om vi någonsin kommer att uppnå på maskinnivå utan att verkligen koda den. Sanningen är att denna typ av "mänskligt" fenomen sannolikt är omöjligt utan restriktiv programmering. Det betyder förstås inte att vi inte slutar försöka. Vi är ju mänskliga .

Tror du att våra robotöverherrar någonsin kommer att lära sig att uppskatta den invecklade rosenbladet under ett mikroskop? Berätta för oss i en kommentar!