Näyttää pahasti siltä, että pareittaisia IBS-arvoja saa laskettua ainoastaan mutkikkaasti käytettävillä ohjelmilla kuten PLINK, joiden toimimaan saaminen vaatii nelivuotisen koulutuksen.
Esitänkin nyt haasteen koodaajille: ei kai voi olla kovinkaan hankalaa vääntää kasaan koodinpätkää, joka suoriutuisi tällaisesta haasteesta?
Toimitus on sinänsä hyvin yksinkertainen:
1. Family Finder -testin data näyttää tältä Excelillä avattuna:
Jos alleelit olisivatkin nätisti omissa sarakkeissaan, Exceliä voisi ehkä hyödyntää laskemisessa, mutta kun ei: kaikki tieto on pitänyt pakata yhteen ja samaan sarakkeeseen.
2. Tarkoitus olisi päästä vertaamaan kahden eri henkilön näytteitä, ja on ihan sama voiko vertailun tehdä kahtena eri tiedostona vai pitääkö tiedostot yhdistää (joko henkilön tai ohjelman toimesta).
3. Käytännössä jokaista locusta eli riviä verrataan näiden kahden henkilön välillä: jos A:lla on tulos GG ja B:llä tulos AA, tulos on 0, jos GG ja AG, tulos on 1, ja jos GG ja GG, tulos on 2. (Sama tietysti myös C- ja T-alleelien kanssa.) Eli vain se merkitsee, montako samaa emästä henkilöt siinä kohden jakavat.
4. Sen jälkeen tarvitsisi vain laskea kaikkien rivien (noin 700 000!) keskiarvo. Sisaruksilla sen pitäisi olla noin 1 (locuskohtainen todennäköisyys 0 = 0,25; 1 = 0,5; 2 = 0,25), ja samaan väestöön kuuluvilla suunnilleen 0,8 ja eri väestöihin kuuluvilla sitäkin vähemmän.
5. Onnistuisiko? Mikä siinä olisi vaikeinta?