SGN-1251 Kurssiblogi (syksy 2012): lokakuuta 2012

keskiviikko 24. lokakuuta 2012

Oppivat järjestelmät

Tänään käytiin läpi kappaleen 5 alku, nimeltään Oppivat järjestelmät.

Oppivien järjestelmien ideana on esittää järjestelmälle näytteitä ja opettaa se tuottamaan oikea ulostulo kun sille esitetään opetusjoukkoon kuulumaton uusi näyte. Yksi oppivien järjestelmien osajoukko ovat luokittelijat, jossa ulostulo kertoo luokan johon esitetty näyte kuuluu.

Ensimmäisellä tunnilla aihetta pohjustettiin esimerkeillä viimeaikaisista hahmontunnistuskilpailuista:

Lisäksi vilkaistiin Kaggle.com-alustaa, johon vastaavia kilpailuja ilmestyy säännöllisesti. Toisella tunnilla tutustuttiin teoriaan. Suosittuja luokittelualgoritmeja ovat ainakin seuraavat (kasvavan monimutkaisuuden järjestyksessä):

Näistä kolme ensimmäistä käsiteltiin luennolla. KNN on ideana yksinkertaisin: kaikki opetusdata pidetään muistissa ja uuden näytteen tullessa etsitään k samanlaisinta näytettä, ja valitaan näistä yleisin luokka. Tyypillisesti k on vajaan kymmenen luokkaa, mutta voi olla suurempikin; esim. 30. Mitä suurempi k on, sitä sileämpi luokkarajasta tulee. Vaikka KNN:n luokittelutulos onkin melko hyvä, on sen ongelmana suuri muistin tarve sekä laskennallinen kompleksisuus. Koko opetusjoukko täytyy nimittäin säilyttää muistissa, josta etsitään k lähintä naapuria jokaisen luokittelun yhteydessä. Sekä tilantarve että etsinnän vaatima aika voivat olla ongelmallisia jos opetusjoukossa on esim. 100000 alkiota.

Luentomonisteen seuraava menetelmä on LDA. Ennen sitä pruju esittelee yksinkertaisemman version samasta ideasta, jossa raja piirretään luokkien keskipisteiden puoliväliin. Tämä ei kuitenkaan toimi, jos luokat ovat "limittäin". Näin päädytäänkin LDA:han, joka ottaa limittäisyyden huomioon.

LDA:ta parempi tulos saadaan (yleensä) käyttämällä SVM:ää. SVM:n ominaisuutena on luokkien välisen marginaalin maksimointi. Tästä on iloa eritoten, jos data on korkeaulotteista. Lisäksi se tarjoaa paremman vaihtoehdon haluttaessa käyttää ns.kernelitemppua, joka kuvaa datan keinotekoisesti korkeampiulotteiseen avaruuteen. Korkeampiulotteisessa avaruudessa on enemmän tilaa, ja siellä on tyypillisesti helpompi löytää lineaarinen päätöspinta joukkojen väliin. Dataa ei konkreettisesti tarvitse kuitenkaan kuvata toiseen avaruuteen, koska kernelitemppu tekee saman yksinkertaisesti korvaamalla kaikki sisätulot sopivalla kernel-funktiolla.

SVM on ollut suosituin luokittelualgoritmi tällä vuosikymmenellä, koska se ei ole herkkä ylioppimisilmiölle. Lisäksi suosion syynä on sen yksinkertainen ja laskennallisesti tehokas toteutus, mutta mukana lienee myös hypeä liittyen optimointialgoritmin syvälliseen matematiikkaan jonka vain harva ymmärtää kunnolla.

keskiviikko 10. lokakuuta 2012

Adaptiivinen suodatus

Tänään käsiteltiin monisteen kappale 4: adaptiivinen suodatus. Adaptiivisten suodinten ideana on oppia suotimen kertoimet tilanteen mukaan. Perusrakenne vaatii aina kaksi signaalia: referenssisignaalin sekä kohdesignaalin. Adaptiivinen suodin pyrkii saamaan referenssin ja suodatetun kohdesignaalin mahdollisimman lähelle toisiaan. Termi mahdollisimman lähelle määritellään täsmällisesti kustannusfunktion avulla, joka on erotuksen neliön odotusarvo. Tällöinhän täytyy enää löytää adaptiiviselle suotimelle ne kertoimet, jotka minimoivat kustannusfunktion.

Adaptiivisen suodatuksen toinen puoli on keksiä mikä olisi referenssisignaali ja mikä kohdesignaali. Toimintaperiaatteensa mukaan AS pyrkii suodattamaan kohdesignaalin niin, että se on mahdollisimman identtinen kopio referenssisignaalista (tai jostain sen osasta). Kohinanpoiston yhteydessä tilanne on yleensä sellainen, että kohdesignaali sisältää pelkkää häiriötä ja referenssi häiriön sekä etsittävän hyötysignaalin. Yksinkertaistettuna AS siis tekee vähennyslaskun:

tulos = referenssi - kohde

eli

tulos = (häiriö + hyöty) - häiriö

Koska y.o. kaavan termi häiriö ei ole sama referenssissä ja kohteessa (esim. viiveet, vaimennukset jne.), täytyy väliin heittää suodatin F:

tulos = (häiriö + hyöty) - F(häiriö),

joka muuntaa kaksi häiriökomponenttia identtisiksi.

Häiriönpoiston ja muiden sovellusesimerkkien lisäksi esiteltiin mm. esimerkki kaiunkumouksesta, sikiön sydänääntentunnistuksesta sekä yleisestä häiriönpoistosta jotka voi ratkaista adaptiivisilla suotimilla. Todettiin myös että iPhone 4:ssa on 2 mikrofonia puheäänen selkeyttämiseksi adaptiivisen suotimen avulla.

Kappaleessa 4.5 etsitään optimiratkaisu w, joka saadaan kun kohde ja referenssi on kiinnitetty. Tulos esitetäänautokorrelaatiomatriisin R ja ristikorrelaatiovektorin p avulla. Käytännön tilanteissa näiden estimointi on kuitenkin hankalaa, joten optimiratkaisun sijaan käytetään iteratiivista algoritmia, joka parantaa painokertoimia sitä mukaan kun uutta dataa tulee. LMS-algoritmi etenee aina kustannusfunktion hetkellisen gradientin suuntaan (miinusmerkkisenä). Hyppäyksen pituus määräytyy parametrin mu mukaan, jonka suuruusluokan valitsemista tarkasteltiin luennon lopuksi.

D/A-muunnos ja näytteenottotaajuuden muuntelu

Tänään (3.10.2012) käytiin kappale 3 loppuun. Aloitimme kappaleen 3.5.1 menetelmällä, jota käytettiin jo ensimmäisissä CD-soittimissa 1980-luvun alussa. Menetelmän tarkastelu aloitettiin jo keskiviikkona, ja ideana oli tehostaa nollannen asteen pitopiirin toimintaa nostamalla näytteenottotaajuus korkeammaksi ennen pitopiiriä. Tämä näkyy aikatasossa s. 36 porraskuvion hienontumisena ja tätä kautta pitopiirin virheen pienenemisenä jä siirtymisenä korkeammille taajuuksille. Taajuustasossa yli 22,05 hertsin taajuuksille tulee vastaavia heijastuksia kuin interpoloinnin yhteydessäkin. Erona on, että nyt heijastumat vaimenevat sitä enemmän mitä korkeammalle mennään. Digitaalinen interpolointi helpottaa näiden heijastusten poistamista: ilman digitaalista interpolointia tarvittavan analogisen suotimen siirtymäkaistan leveys olisi 2,05 kHz, kun esim. nelinkertaisella interpoloinnilla se saadaan yli 130 kHz:n levyiseksi.

Toinen, nykyisin yleisempi ratkaisu yksinkertaistaa analogiapuolta edelleen kvantisoimalla D/A-muunnettavan signaalin 1-bittiseksi (etupaneelissa saattaa lukea 1 bit D/A conversion, tms.). Ratkaisusta käytetään nimeäkohinanmuokkaus, englanniksi noise shaping tai sigma delta modulation. Kvantisointi onnistuu äänenlaatua heikentämättä, kun nostetaan näytteenottotaajuus ensin riittävän suureksi. Tällöin näytteiden suuri määrä kompensoi niiden heikkoa tarkkuutta. Pelkkä ylinäytteistys ei kuitenkaan vielä riitä: ilman muita temppuja näytteenottotaajuus pitäisi nostaa jopa miljardikertaiseksi, mikä ei käytännössä ole mahdollista. Siksi täytyy ottaa käyttöön sivun 39 lohkokaavion mukainen takaisinkytkentä, joka aiheuttaa kvantisointivirheen siirtymisen korkeammille taajuuksille. Siellähän kohina ei haittaa, koska se voidaan erottaa hyötysignaalista analogisella alipäästösuodatuksella D/A-muunnoksen jälkeen. Jäljelle jäävän kvantisointikohinan määrä voidaan laskea, ja havaitaan että suuruusluokassa 1500 oleva muunnoskerroin riittää (miljardien sijaan). Ratkaisua voidaan edelleen tehostaa tarkastelemalla korkeampiasteisia kohinanmuokkaimia, jotka siirtävät vieläkin tehokkaammin kvantisointikohinaa korkeammalle.

Jotkin audioformaatit kuten Super Audio CD tallentavat äänen suoraan yksibittisenä. Tästä on etuna se, että kohinanmuokkaus täytyy tehdä vain kerran äänitysstudiossa eikä jokaisessa kuluttajalaitteessa erikseen.