Khvorykh et al. 2020: laaja IBD-tutkimus

Alkuperää koskeva uutisointi ja uudet tutkimukset.

Khvorykh et al. 2020: laaja IBD-tutkimus

ViestiKirjoittaja Jaska » 19 Helmi 2021 10:38

Khvorykh et al. 2020:
Global Picture of Genetic Relatedness and the Evolution of Humankind
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7696950/

Erittäin laaja maailmanlaajuinen IBD-fragmenttien vertailu, jossa on mukana myös ihmisen arkaaisia alalajeja:
"The genomes of all three studied Neanderthals (Altai Neandertal (Denisova5, Alt_XXX), Chagirskaya (Cha_XXX), and Vindija (Vin_XXX)) have strikingly similar patterns of relatedness to modern populations, despite these prehistoric people having lived ~30,000 years apart from each other in the area from southern Europe to Western Eurasia and Altai (see bottom of Supplementary Table S4). Supplementary Table S4 demonstrates that Neanderthal genomes have the highest percentage of relatedness (around 50%) with people from Oceania, followed by South Asia (~15%). Meanwhile, American and Arctic populations have the lowest Neanderthal relatedness (~0.5% and ~2% respectively).

Similar to the Neanderthal genome, the Denisovan genome (Den_XXX) also had the highest level of admixture with the Oceania populations. However, Den_XXX contains much higher levels of relatedness to African genomes (see Figure 3). In fact, around 30% of the Denisovan genome relatedness to modern humans comes from Eastern and Western Africa. Drastically lower percentages of Denisovan relatedness to Hindustan and Middle East populations is another notable difference between Denisovans and Neanderthals."

Eurooppalaisissa on enemmän metsästäjäperimää, Lähi-idässä maanviljelijäperimää:
"Analysis of ancient humans from Europe who lived 7000–9000 years ago demonstrated a higher impact of the Luxemburg’s Loschbour genome (Los_XXX) on modern Europeans than the Stuttgart (Lbk_XXX) genome (~74% and ~60% relatedness respectively, see bottom of the Supplementary Table S4). In contrast, the relatedness to modern Middle Eastern (~27% vs. ~16%) and East African (~4% vs. ~0.3%) genomes was found to be higher in the Stuttgart ancient human than in the Loschbour human. Such differences in genomic impact between Loschbour and Stuttgart ancient humans on modern populations are consistent with their affiliation to two distinct human cultures: Western hunter–gatherers and the first European farmers, respectively."

Käytetty menetelmä ei kuitenkaan tunnista kaikkein lyhimpiä IBD-jaksoja:
"We acknowledge that our approach is likely to miss a considerable portion of the very short (<10 Kb) IBD segments. This is because there is only about one very rare SNP allele per 10 Kb in the human genome. We decided not to loosen our stringent criteria for characterization of IBDs (which is at least 5 very rare SNPs) because false positive results with these conditions are negligible (see our computer modeling with Rnd_XXX in the Section 2). Therefore, our approach yields a cleaner background but likely creates a bias by missing many of the shortest IBD fragments. Altering this constraint (for example, changing our lower limit to a cluster of three very rare SNP alleles instead of five) would very likely help in detecting the shortest IBDs, but would also greatly increase the false positive IBD detection."

Menetelmä tuottaa erilaisia tuloksia kuin esim. yleisesti käytetty Admixture-analyysi:
"Regarding Europeans, the strongest genetic distinction in their population occurs along the North-South axis. All European Mediterranean countries (Spain, Italy, Greece, Albania, Croatia) have around the same level of relatedness to the Middle East and North Europe (around a 1:1 ratio at 40%, see Supplementary Table S4). In contrast, the Middle East component of relatedness in Scandinavians and other people from Northern Europe is lower than 10%."

Admixture-analyyseissä jopa saamelaisissa on noin 20 % maanviljelijäperimää ja skandinaaveissa vielä selvästi enemmän. IBD-menetelmä näyttää kuitenkin löytävän hyvin väestöjen juuria, esimerkkinä Euroopan romanien eteläaasialainen perimäosuus on peräti 44 %, mutta toisaalta he saapuivatkin vasta noin 500 vuotta sitten:

"Among 47 studied European populations, only one (Roma, Bosnia-Herzegovina) stands out from the others by its unique pattern of genetic relatedness. Specifically, the Roma population has the highest genetic relatedness (44%) to the SAS natives, which is, on average, eight times higher than in other Europeans. The Roma people came to Europe from India, and astonishingly, they have almost fully preserved their genetic identity despite producing dozens of generations since their separation from their original founder population."
~ "Per aspera ad hominem - vaikeuksien kautta henkilökohtaisuuksiin" ~

Y-DNA: N1c1-YP1143 (Olavi Häkkinen 1620 Kuhmo? >> Juhani Häkkinen 1816 Eno)
mtDNA: H5a1e (Elina Mäkilä 1757 Kittilä >> Riitta Sassali 1843 Sodankylä)
Avatar
Jaska
Ylihärmiö
Ylihärmiö
 
Viestit: 11024
Liittynyt: 14 Helmi 2011 04:02

Re: Khvorykh et al. 2020: laaja IBD-tutkimus

ViestiKirjoittaja Lri » 19 Helmi 2021 14:42

Jaska kirjoitti:Menetelmä tuottaa erilaisia tuloksia kuin esim. yleisesti käytetty Admixture-analyysi:
"Regarding Europeans, the strongest genetic distinction in their population occurs along the North-South axis. All European Mediterranean countries (Spain, Italy, Greece, Albania, Croatia) have around the same level of relatedness to the Middle East and North Europe (around a 1:1 ratio at 40%, see Supplementary Table S4). In contrast, the Middle East component of relatedness in Scandinavians and other people from Northern Europe is lower than 10%."


Se on joku mikkihiirimenetelmä, koska se antaa vaikka 1000 Genomesin suomalaisille (Finnish_in_Finland) enemmän lähi-itäläistä komponenttia kuin ruotsalaisille, ja se antaa udmurteille enemmän lähi-itäläistä komponenttia kuin saksalaisille:

Kuva

Koodi: Valitse kaikki
curl -Ls pastebin.com/raw/BmNdqWvi|tr -d \\r>/tmp/tables4
printf %s\\n Sau_MDE Ira_MDE Rom_EUR Gre_EUR Ger_EUR GBR_EUR Swe_EUR Lat_EUR Rus_EUR Est_EUR Fin_EUR FIN_EUR Ing_EUR Kar_EUR Vep_EUR Saa_EUR Mor_EUR Kom_EUR Udm_EUR Mar_EUR Mis_EUR Kry_EUR Tat_EUR Chu_EUR BSh_EUR Man_SIB Kha_SIB Tun_SIB For_SIB Nen_SIB  Nga_SIB Bur_SIB Yak_SIB Ale_ARC>/tmp/pop
awk -F, 'NR==1{print;next}NR==FNR{a[$1]=$0;next}$1 in a{print a[$1]}' /tmp/tables4 /tmp/pop|awk -F, -v OFS=, '{print$2,$6,$11,$10,$7,$8,$5,$9,$3,$4}'>/tmp/a
R -e 'library("ggplot2");library("reshape2");png("output.png",height=650,width=500);t<-read.csv("/tmp/a",header=T,check.names=F);
t2<-melt(t,id.var="Population");ggplot(t2,aes(x=fct_rev(factor(Population,level=t$Population)),y=value,fill=variable))+
geom_bar(stat="identity",width=1,position=position_fill(reverse=T))+coord_flip()+theme_linedraw()+
theme(axis.title.x=element_blank(),axis.ticks=element_blank(),panel.border=element_blank(),panel.grid.major=element_blank(),plot.margin=margin(0,0,0,0),
axis.ticks.length=unit(0,"pt"),legend.title=element_blank(),legend.margin=margin(0,0,0,-15),text=element_text(size=15))+xlab("")+
scale_fill_manual("legend",values=c("#2979dd","#29dd3a","#2c722c","#71dade","#eac600","#dd29c6","#e02626","#e59757","#7f5425"));dev.off()'


Uploadasin sen taulukon S4 CSV-muodossa tänne: https://pastebin.com/raw/BmNdqWvi.

Menetelmän kuvaus:

> The fourth stage of our computations is unique to this research and was absent in Fedorova et al. 2016. In this stage, we created Supplementary Table S4 using the program rankingATLAS2_v9.pl, and the data from the Supplementary Table S1 ("IBD Normalized Numbers"). Supplementary Table S4 presents the percentages of relative relatedness of each population to the nine Distinct Human Genetic Regions (DHGRs) (AFE, AFW, AMR, EUR, ARC, EAS, OCE, SAS, and MDE, see Results section). For each population (e.g., Georgia) the program counts the numbers of shared IBD fragments per pair of individuals for this population with the three representatives of DHGR region and then makes a sum of these three numbers. For example, the for the AFE region, the summing number of shared IBDs will be the following: 0.48 IBDs (per pair for Georgia vs. LWK) + 0.92 (Georgia vs. Din_AFR) + 3.12 (Georgia vs. Mas_AFR) = 4.52 (for the AFE group). And so on for each DHGR group. In order to minimize the Founder effect in our calculations, we created an upper threshold of 100 shared IBD segments for any populational pair. For example, in a calculation of Congo (Con_AFR) vs. LWK, the original value was 151.9, however, with the threshold in place, the program changed the value to 100). Finally, we calculated the relative percentages for all 9 components (AFE, AFW, AMR, EUR, ARC, EAS, OCE, SAS, and MDE) in a way that ensured their sum was always 100%. Ranking data for each population (as presented in Table 2) were also obtained by rankingATLAS2_v9.pl.

Esimerkiksi pohjoiseurooppalaisen komponentin arvo on laskettu laskemalla yhteen jaettu IBD ruotsalaisten, virolaisten ja saksalaisten kanssa:

Kuva
Lri
Mettänpeikko
Mettänpeikko
 
Viestit: 323
Liittynyt: 09 Maalis 2019 15:01

Re: Khvorykh et al. 2020: laaja IBD-tutkimus

ViestiKirjoittaja Lri » 21 Helmi 2021 14:32

Tässä on satunnaisesti valittujen väestöjen jakamien IBD-fragmenttien määrä muinaisyksilöiden kanssa. Otin arvoista neliöjuuren, jotta sain lämpökartan väriskaalan enemmän tasaiseksi, ja jotta sain arvoista helpommin hahmotettavia pieniä kokonaislukuja. Eli esimerkiksi Ust-Ishimin ja Loschbourin välinen alkuperäinen arvo on 213.84, jonka neliöjuuri on pyöristettynä 15. Tässä käytetään normalisoituja arvoja taulusta "IBD-Normalized-number".

KuvaKuvaKuva

Koodi: Valitse kaikki
brew install R
R -e 'install.packages(c("pheatmap","RColorBrewer"),repos="https://cloud.r-project.org")'
curl -Ls pastebin.com/raw/tA6BwtzA|tr -d \\r>/tmp/a
tp(){ awk '{for(i=1;i<=NF;i++)a[i][NR]=$i}END{for(i in a)for(j in a[i])printf"%s"(j==NR?"\n":FS),a[i][j]}' "FS=${1-$'\t'}";}
sed 1,2d /tmp/a|head -n-3|shuf -n24|awk -F, '{print$3" ("$1"),"$0}'|cat <(sed -n 2s/^/,/p /tmp/a) -|cut -d, -f1,5-|tp ,|awk -F, 'NR==FNR{a[$0];next}FNR==1||$1 in a' <(printf %s\\n Alt_XXX Cha_XXX Den_XXX Lbk_XXX Los_XXX Ust_XXX Vin_XXX) -|awk -F, -v OFS=, 'NR==FNR{a[$2]=$3;next}NR>1{$1=a[$1]}1' /tmp/a -|tp ,|sed s,N/A,,g>/tmp/b
R -e 'library("pheatmap");library("RColorBrewer");t<-read.csv("/tmp/b",header=T,row.names=1,check.names=F); pheatmap(sqrt(t),cuttree_rows=8,cuttree_cols=2,filename="output.png",cellwidth=12,cellheight=12,border_color=NA, display_numbers=T,number_format="%.0f",fontsize_number=7,number_color="black",rev(colorRampPalette(brewer.pal(11,"Spectral"))(256)))'
Lri
Mettänpeikko
Mettänpeikko
 
Viestit: 323
Liittynyt: 09 Maalis 2019 15:01

Re: Khvorykh et al. 2020: laaja IBD-tutkimus

ViestiKirjoittaja Lri » 21 Helmi 2021 15:51

Tässä on vielä satunnaisille väestöille niitä taulukon S4 sekoitusanalyyseja, jotka on laskettu tässä paperissa keksityllä IBD:hen perustuvalla menetelmällä. Pohjoiseurooppalainen komponentti perustuu jaettuun IBD:hen virolaisten, ruotsalaisten, ja saksalaisten kanssa, joten esimerkiksi tataarit saavat liian vähän pohjoiseurooppalaista komponenttia verrattuna ruotsalaisiin tai saksalaisiin.

Kuva
Lri
Mettänpeikko
Mettänpeikko
 
Viestit: 323
Liittynyt: 09 Maalis 2019 15:01

Re: Khvorykh et al. 2020: laaja IBD-tutkimus

ViestiKirjoittaja Jaska » 21 Helmi 2021 17:49

Kiitos Lri, havainnollisia.
~ "Per aspera ad hominem - vaikeuksien kautta henkilökohtaisuuksiin" ~

Y-DNA: N1c1-YP1143 (Olavi Häkkinen 1620 Kuhmo? >> Juhani Häkkinen 1816 Eno)
mtDNA: H5a1e (Elina Mäkilä 1757 Kittilä >> Riitta Sassali 1843 Sodankylä)
Avatar
Jaska
Ylihärmiö
Ylihärmiö
 
Viestit: 11024
Liittynyt: 14 Helmi 2011 04:02

Re: Khvorykh et al. 2020: laaja IBD-tutkimus

ViestiKirjoittaja Lri » 22 Helmi 2021 09:11

Taulussa S3 on listattu jaettujen IBD-fragmenttien lukumäärä jokaiselle paperissa verrattavien 3121:n yksilöiden parille. Valitsin taulukosta kaikki virolaiseen EGDP-projektiin kuuluvien näytteiden rivit ja sarakkeet. Laskin sitten samaan väestöön kuuluvien rivien keskiarvot jokaiselle sarakkeelle. Käytin vain yhdestä lähteestä olevia näytteitä, koska käsittääkseni silloin IBD-arvoja ei pidä normalisoida, ja yksilöiden väliset IBD-arvot oli listattu normalisoimattomassa muodossa.

Sain arvojen perusteella tällaisen sukupuun:

Kuva

Laskin tämän varmaan jotenkin väärin, mutta sukupuussa käytetään euklidisia etäisyyksiä ja complete-linkitysmuotoa:

Koodi: Valitse kaikki
tav(){ awk '{n[$1]++;for(i=2;i<=NF;i++){a[$1][i]+=$i}}END{for(i in a){o=i;for(j=2;j<=NF;j++)o=o FS a[i][j]/n[i];print o}}' "FS=${1-$'\t'}";}
tp(){ awk '{for(i=1;i<=NF;i++)a[i][NR]=$i}END{for(i in a)for(j in a[i])printf"%s"(j==NR?"\n":FS),a[i][j]}' "FS=${1-$'\t'}";}
awk 'NR==3||/_GS/' TableS3.csv|awk -F_ 'NR==1{print","$0;next}{print$1"_"$2","$0}'|cut -d, -f1,3-|(sed -u 1q;tav ,)|tp ,|awk 'NR==1||/_GS/'|tp ,|awk -F, -v OFS=, 'NR==FNR{a[$2]=$3;next}{$1=a[$1]}1' TableS1-IBD-Normalized-number.csv ->/tmp/a
R -e 'library("ape");png("output.png",w=800,h=2300); plot(as.phylo(hclust(dist(read.csv("/tmp/a",header=T,row.names=1,check.names=F)))),cex=1.3,font=1);dev.off()'
mogrify -trim -border 10 -bordercolor white output.png
Lri
Mettänpeikko
Mettänpeikko
 
Viestit: 323
Liittynyt: 09 Maalis 2019 15:01

Re: Khvorykh et al. 2020: laaja IBD-tutkimus

ViestiKirjoittaja Anskuq » 22 Helmi 2021 09:56

Lri kirjoitti:Taulussa S3 on listattu jaettujen IBD-fragmenttien lukumäärä jokaiselle paperissa verrattavien 3121:n yksilöiden parille. Valitsin taulukosta kaikki virolaiseen EGDP-projektiin kuuluvien näytteiden rivit ja sarakkeet. Laskin sitten samaan väestöön kuuluvien rivien keskiarvot jokaiselle sarakkeelle. Käytin vain yhdestä lähteestä olevia näytteitä, koska käsittääkseni silloin IBD-arvoja ei pidä normalisoida, ja yksilöiden väliset IBD-arvot oli listattu normalisoimattomassa muodossa.

Sain arvojen perusteella tällaisen sukupuun:

Kuva

Laskin tämän varmaan jotenkin väärin, mutta sukupuussa käytetään euklidisia etäisyyksiä ja complete-linkitysmuotoa:

Koodi: Valitse kaikki
tav(){ awk '{n[$1]++;for(i=2;i<=NF;i++){a[$1][i]+=$i}}END{for(i in a){o=i;for(j=2;j<=NF;j++)o=o FS a[i][j]/n[i];print o}}' "FS=${1-$'\t'}";}
tp(){ awk '{for(i=1;i<=NF;i++)a[i][NR]=$i}END{for(i in a)for(j in a[i])printf"%s"(j==NR?"\n":FS),a[i][j]}' "FS=${1-$'\t'}";}
awk 'NR==3||/_GS/' TableS3.csv|awk -F_ 'NR==1{print","$0;next}{print$1"_"$2","$0}'|cut -d, -f1,3-|(sed -u 1q;tav ,)|tp ,|awk 'NR==1||/_GS/'|tp ,|awk -F, -v OFS=, 'NR==FNR{a[$2]=$3;next}{$1=a[$1]}1' TableS1-IBD-Normalized-number.csv ->/tmp/a
R -e 'library("ape");png("output.png",w=800,h=2300); plot(as.phylo(hclust(dist(read.csv("/tmp/a",header=T,row.names=1,check.names=F)))),cex=1.3,font=1);dev.off()'
mogrify -trim -border 10 -bordercolor white output.png

Miten ruotsalaiset ovat niin oudossa paikkaa?
Anskuq
Kielevä karjalainen
Kielevä karjalainen
 
Viestit: 904
Liittynyt: 29 Elo 2015 19:08

Re: Khvorykh et al. 2020: laaja IBD-tutkimus

ViestiKirjoittaja Lri » 22 Helmi 2021 10:27

Anskuq kirjoitti:Miten ruotsalaiset ovat niin oudossa paikkaa?


Postaamani puukuvaaja perustui ainoastaan virolaisen EGDP-projektin näytteisiin. Niiden joukossa ei ollut mukana muita länsieurooppalaisia kuin ruotsalaiset ja saksalaiset, jos suomalaisia ja Suomen saamelaisia ei lasketa.

Siinä EGDP:ssä oli mukana vain kaksi ruotsalaista, joista taulun SI2 mukaan toinen oli Nyköpingistä mutta toisen sijaintia ei annettu (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5164938/):

Assembly_ID;GS000035109-ASM;GS000035240-ASM
Y chr haplogroup;R1a1e;R1a1e
location;;Nyköping
Country_of_origin;Sweden;Sweden
comment;approximate location (capital);parents and grandparents from same region
x (rounded for privacy reasons);59.4;58.8

Tässä on Khvorykhin taulukosta S3 jaettujen IBD-fragmenttien normalisoimaton lukumäärä sille ruotsalaiselle, jonka sijaintia ei annettu:

$ grep GS000035109 TableS3.csv|tp ,|sort -t, -rnk2|head -n32
Ing_EUR_GS000016897-ASM,21
Swe_EUR_GS000035240-ASM,20
Ice_EUR_LP6005442-DNA_D08,19
Fin_EUR_LP6005442-DNA_D10,19
Fin_EUR_GS000016894-ASM,18
Fin_EUR_GS000016895-ASM,17
Vep_EUR_GS000017632-ASM,15
Saa_EUR_LP6005592-DNA_C01,15
Saa_EUR_GS000035026-ASM,15
Fin_EUR_LP6005592-DNA_A02,15
Fin_EUR_LP6005442-DNA_C10,15
Est_EUR_LP6005442-DNA_H03,15
Cro_EUR_GS000015872-ASM,15
Ukr_EUR_GS000035176-ASM,14
IBS_EUR_HG01747,14
Hun_EUR_LP6005442-DNA_A08,14
Hun_EUR_GS000016901-ASM,14
Est_EUR_LP6005442-DNA_G03,14
Rus_EUR_LP6005441-DNA_H10,13
Kar_EUR_GS000016970-ASM,13
Fin_EUR_GS000018756-ASM,13
Rus_EUR_GS000016819-ASM,12
Orc_EUR_LP6005442-DNA_F10,12
Lat_EUR_GS000035027-ASM,12
Lat_EUR_GS000016903-ASM,12
Kar_EUR_GS000013765-ASM,12
FIN_EUR_HG00309,12
Est_EUR_GS000017209-ASM,12
Est_EUR_GS000017208-ASM,12
Ukr_EUR_GS000035178-ASM,11
Saa_EUR_LP6005592-DNA_D01,11
Saa_EUR_GS000035025-ASM,11

Tässä on se Nyköpingin ruotsalainen:

$ grep GS000035240 TableS3.csv|tp ,|sort -t, -rnk2|head -n32
Swe_EUR_GS000035109-ASM,21
Est_EUR_LP6005442-DNA_H03,20
Fin_EUR_LP6005592-DNA_A02,19
Orc_EUR_LP6005442-DNA_F10,17
Nor_EUR_LP6005592-DNA_B01,17
Est_EUR_LP6005442-DNA_G03,16
Ing_EUR_GS000016897-ASM,15
Kar_EUR_GS000016970-ASM,14
Ice_EUR_LP6005443-DNA_B06,14
Ice_EUR_LP6005442-DNA_D08,14
Fin_EUR_LP6005442-DNA_C10,14
Fin_EUR_GS000016894-ASM,14
Vep_EUR_GS000015878-ASM,13
Kar_EUR_GS000035149-ASM,13
Ger_EUR_GS000016893-ASM,13
GBR_EUR_HG00151,13
Fin_EUR_GS000018756-ASM,13
Saa_EUR_GS000035026-ASM,12
Saa_EUR_GS000035025-ASM,12
Ing_EUR_GS000016896-ASM,12
FIN_EUR_HG00365,12
Est_EUR_GS000017208-ASM,12
Est_EUR_GS000016919-ASM,12
Cro_EUR_GS000015871-ASM,12
CEU_EUR_NA12414,12
TSI_EUR_NA20528,11
Saa_EUR_LP6005592-DNA_D01,11
Rus_EUR_GS000035242-ASM,11
Lit_EUR_GS000016905-ASM,11
Kar_EUR_GS000013765-ASM,11
GBR_EUR_HG00128,11
Fin_EUR_LP6005442-DNA_D10,11

Omassa sukupuussani oli mukana vain GS-alkuiset näytteet EGDP:stä. Yllä listatut arvot ovat normalisoimattomia, joten nämä GS-alkuiset ruotsalaiset eivät välttämättä ole verrattavissa muista lähteistä oleviin näytteisiin, joissa ei ole GS-alkuliitettä.
Lri
Mettänpeikko
Mettänpeikko
 
Viestit: 323
Liittynyt: 09 Maalis 2019 15:01

Re: Khvorykh et al. 2020: laaja IBD-tutkimus

ViestiKirjoittaja Eskous » 22 Helmi 2021 11:20

Lri kirjoitti:jaettujen IBD-fragmenttien lukumäärä

Äkkiseltään on hämmentävää miten hyvin tuo suure näyttää mittaavan väestöjen välisiä geneettisiä yhteyksiä. (Mikäli ymmärsin oikein, että puun laatiminen ei perustunut cM-kokonaismäärään?) Toisaalta niinhän se FTDNA:n serkkutestissäkin on, että pikkusegmenttien suuri lukumäärä kertoo väestöpohjan jakamisesta osumien välillä (eikä lähisukulaisuudesta). Tässähän IBD-segmentit ovat vielä pienempiä - fragmentteja. Ehkä ne ovat cM-kokojakaumaltaan järjestään niin samanlaisia, että kokonais cM:n laskeminen on turhaa?
Eskous
Lipevä lappilainen
Lipevä lappilainen
 
Viestit: 477
Liittynyt: 31 Heinä 2012 00:05

Re: Khvorykh et al. 2020: laaja IBD-tutkimus

ViestiKirjoittaja Lri » 22 Helmi 2021 16:36

Tässä on jaettujen IBD-fragmenttien keskimääräinen pituus taulukon S1 taulusta IBD-Mean-length. Jätin pois metsänenetsien arvon itsensä kanssa (9934), koska se oli melkein kaksi kertaa seuraavaksi korkeinta arvoa suurempi, joten se venytti väriskaalaa liikaa.

Jostain syystä 1000 Genomesin suomalaisilla (Finnish_in_Finland) on myös korkea itsensä kanssa jaettujen IBD-fragmenttien pituus. Muilla suomalaisilla (EGDP:stä ja SGDP:stä) se on pienempi.

Kuva

Eskous kirjoitti:(Mikäli ymmärsin oikein, että puun laatiminen ei perustunut cM-kokonaismäärään?)


Juu ei perustunu. Käytin siinä vaan tämän taulukon arvoja:

Kuva
Lri
Mettänpeikko
Mettänpeikko
 
Viestit: 323
Liittynyt: 09 Maalis 2019 15:01

Re: Khvorykh et al. 2020: laaja IBD-tutkimus

ViestiKirjoittaja Lri » 22 Helmi 2021 22:06

Paperin lisätiedoissa oli tämä kuvaaja:

Kuva

Selostus kuvaajalle:

> The multidimensional scaling (MDS) was made with the cmdscale() function from the stats R package [58]. The input data were given as the matrix which values are the numbers of shared IBD fragments between two individuals. The size of the matrix was 3121. Since the upper triangle of the matrix differed a little bit from the lower triangle because of peculiarities of computational method, we forced the matrix to be fully symmetrical by mirroring the lower triangle to upper triangle. Then we normalized the values as follows. The maximum value was found in the matrix and each value of the matrix was divided by this maximum value. The distance (dissimilarity) between individuals was estimated following the formula: d = (1 − s)/s according to Ignatov and co-authors 2012 [59], where s is a normalized number of shared IBD fragments between two individuals.

Kokeilin samanlaista menetelmää, mutta tein varmaan jotain väärin, koska en onnistunut saamaan samanmuotoista kuvaajaa. Sain myös aivan erimuotoisen kuvaajan riippuen siitä, käytinkö normalisoituja vai normalisoimattomia jaettujen IBD-fragmenttien lukumäärän arvoja. Kokeilin laskea yksilöparien välille normalisoidut IBD-arvot käyttämällä väestöjen välisiä normalisaatiokertoimia, mutta ehkä tässä olisi pitänyt käyttää joitain yksilöiden välisiä normalisaatiokertoimia.

sed 1,3d IBD-Normalized-number-Table\ 1.csv|sed \$d|awk -F, '{print$2","$NF}'>normalizationcoefficients
sed 1,2d mui/ibd/TableS3.csv|head -n-2|rev|cut -d, -f3-|rev|sed s,N/A,,>ibdpairs
sed 1,2d mui/ibd/TableS3.csv|head -n-2|rev|cut -d, -f3-|rev|sed s,N/A,,|awk -F, 'NR==FNR{a[$1]=$2;next}FNR==1{for(i=2;i<=NF;i++){x=$i;sub("_[^_]*$","",x);b[i]=x};print;next}{printf"%s,",$1;x=$1;sub("_[^_]*$","",x);for(i=2;i<=NF;i++)printf"%s"(i==NF?"\n":","),$i*(a[x]*a[b[i]])^.5}' normalizationcoefficients ->normalizedibdpairs
R -e 'library("ggplot2");t<-read.csv("ibdpairs",header=T,row.names=1);regions<-do.call(rbind,strsplit(rownames(t),"_"))[,2]; t[upper.tri(t)]=t[lower.tri(t)];t<-t/max(t,na.rm=T);t<-(1-t)/t;t[sapply(t,is.infinite)]<-0;t[is.na(t)]<-0;s<-as.data.frame(cmdscale(t)); ggplot(s,aes(V1,V2))+geom_point(data=s,aes(x=V1,y=V2,color=regions))+theme(legend.title=element_blank());ggsave("output.png")'
Lri
Mettänpeikko
Mettänpeikko
 
Viestit: 323
Liittynyt: 09 Maalis 2019 15:01

Re: Khvorykh et al. 2020: laaja IBD-tutkimus

ViestiKirjoittaja Lri » 22 Maalis 2021 15:59

Tässä on eurooppalaiset väestöt järjestettynä itsensä kanssa jaetun normalisoidun IBD-fragmenttien lukumäärän perusteella.

Jostain syystä 1000 Genomesien suomalaisten (Finnish_in_Finland) arvo on melkein kaksi kertaa korkeampi kuin Simonsin ja EGDP:n suomalaisten arvo (Finnish:Finland). Jälkimmäisen otoskoko on kuitenkin vain 6.

$ curl -Ls pastebin.com/raw/CnCPEmff|tr -d \\r>khvorykh-2020-table-s1-normalized-number-of-shared-ibd-fragments
$ curl -Ls pastebin.com/raw/KRTyxqhP|tr -d \\r>khvorykh-2020-table-s1-average-length-of-shared-ibd-fragments
$ head -n-3 khvorykh-2020-table-s1-normalized-number-of-shared-ibd-fragments|sed 1,3d|awk -F, '{print$(NR+3),$2,$3,$1}'|grep EUR|sort -rn
186.11 Saa_EUR Saami:Finland 5se
141.03 Rom_EUR Roma_Bosnia-Herzegovina 3e
112.14 Bas_EUR Basque:France 2s
99.14 Udm_EUR Udmurds 4e
97.57 FIN_EUR Finnish_in_Finland 99
85.66 Mar_EUR Maris_Russia 4e
60.35 Vep_EUR Vepsas_Russia 6ev
58.51 Chu_EUR Chuvashes_Russia 3e
57.32 Kar_EUR Karelians 4ev
56.27 Fin_EUR Finnish:Finland 6se
52.21 Ice_EUR Icelandic:Iceland 2s
51.92 Ing_EUR Ingrians_Russia_North 3e
49.39 Sar_EUR Sardinian:Italy 3s
47.75 Alb_EUR Albanian:Albania 4se
42.71 Swe_EUR Swedes_Sweden 2e
40.14 Lat_EUR Latvians 3e
38.79 Lit_EUR Lithuanians 3e
36.85 Est_EUR Estonian:Estonia 8se
36.84 GBR_EUR British_in_England_and_Scotland 88
35.08 CEU_EUR Utah_(CEPH)_NW_Eur_Ancestry 91
32.98 Mor_EUR Mordvins_Russia 3e
32.44 Kom_EUR Komis_Russia 6ev
28.88 BSh_EUR Bashkirs_Russia 5e
28.18 Cro_EUR Croats_Bosnia-Herzegovina 4e
24.39 Pol_EUR Polish:Poland 5se
24.24 Bel_EUR Belarusians 4e
23.68 Spa_EUR Spanish:Spain 2s
23.39 Rus_EUR Russian:Russia 15sev
22.77 Orc_EUR Orcadian:OrkneyIslands 4s
22.14 Ukr_EUR Ukrainians 7e
20.55 Fre_EUR French:France 3s
20.13 Bul_EUR Bulgarian:Bulgaria 2s
19.54 IBS_EUR Iberian_Population_in_Spain 107
19.24 Cos_EUR Cossacks_Ukraine 4e
17.76 Ber_EUR Bergamo:Italy 2s
17.69 Tat_EUR Tatars 3e
17.44 Cre_EUR Crete:Greece 2s
17.22 Tus_EUR Tuscan:Italy 2s
16.37 TSI_EUR Toscani_Italia 106
14.97 Ger_EUR Germans 3e
14.19 Hun_EUR Hungarian:Hungary 4se
14.15 Kry_EUR Kryashen-Tatars_Russia 3e
12.65 Gre_EUR Greek:Greece 2s
11.86 Mol_EUR Moldavians 2e
0 Nor_EUR Norwegian:Norway 1s
0 Mis_EUR Mishar-Tatars 1e
0 Eng_EUR English:England 1s

Tässä on myös väestöjen itsensä kanssa jakamien IBD-fragmenttien keskimääräinen pituus:

$ head -n-3 khvorykh-2020-table-s1-average-length-of-shared-ibd-fragments|sed 1,3d|awk -F, '{print$(NR+3),$2,$3,$1}'|grep EUR|sort -rn
5934 Rom_EUR Roma_Bosnia-Herzegovina 3e
4375 Saa_EUR Saami:Finland 5se
4083 FIN_EUR Finnish_in_Finland 99
3130 Vep_EUR Vepsas_Russia 6ev
3007 Kom_EUR Komis_Russia 6ev
2998 Udm_EUR Udmurds 4e
2857 Mar_EUR Maris_Russia 4e
2621 GBR_EUR British_in_England_and_Scotland 88
2610 Kar_EUR Karelians 4ev
2517 Chu_EUR Chuvashes_Russia 3e
2302 CEU_EUR Utah_(CEPH)_NW_Eur_Ancestry 91
2288 Ing_EUR Ingrians_Russia_North 3e
2204 BSh_EUR Bashkirs_Russia 5e
2136 Alb_EUR Albanian:Albania 4se
1975 Cro_EUR Croats_Bosnia-Herzegovina 4e
1927 Fin_EUR Finnish:Finland 6se
1782 Mor_EUR Mordvins_Russia 3e
1750 Bas_EUR Basque:France 2s
1679 Rus_EUR Russian:Russia 15sev
1600 Spa_EUR Spanish:Spain 2s
1592 Lat_EUR Latvians 3e
1571 Orc_EUR Orcadian:OrkneyIslands 4s
1568 Swe_EUR Swedes_Sweden 2e
1501 Kry_EUR Kryashen-Tatars_Russia 3e
1497 Tat_EUR Tatars 3e
1460 Est_EUR Estonian:Estonia 8se
1456 Cos_EUR Cossacks_Ukraine 4e
1453 TSI_EUR Toscani_Italia 106
1445 Lit_EUR Lithuanians 3e
1432 Ukr_EUR Ukrainians 7e
1337 IBS_EUR Iberian_Population_in_Spain 107
1335 Pol_EUR Polish:Poland 5se
1327 Sar_EUR Sardinian:Italy 3s
1324 Ger_EUR Germans 3e
1312 Bel_EUR Belarusians 4e
1293 Ice_EUR Icelandic:Iceland 2s
1167 Hun_EUR Hungarian:Hungary 4se
1140 Tus_EUR Tuscan:Italy 2s
1134 Ber_EUR Bergamo:Italy 2s
1054 Mol_EUR Moldavians 2e
936 Cre_EUR Crete:Greece 2s
871 Bul_EUR Bulgarian:Bulgaria 2s
824 Fre_EUR French:France 3s
661 Gre_EUR Greek:Greece 2s
N/A Nor_EUR Norwegian:Norway 1s
N/A Mis_EUR Mishar-Tatars 1e
N/A Eng_EUR English:England 1s
Lri
Mettänpeikko
Mettänpeikko
 
Viestit: 323
Liittynyt: 09 Maalis 2019 15:01


Paluu Uutiset ja tutkimukset

Paikallaolijat

Käyttäjiä lukemassa tätä aluetta: Ei rekisteröityneitä käyttäjiä ja 5 vierailijaa

cron