లుబ్కే GH, లారిన్ C, వాల్టర్స్ R, ఎరిక్సన్ N, హైసీ P, స్పెక్టర్ TD, మోంట్గోమెరీ GW, మార్టిన్ NG, మెడ్ల్యాండ్ SE మరియు బూమ్స్మా DI
సాధారణంగా, జీనోమ్-వైడ్ అసోసియేషన్ అధ్యయనాలు సంకలిత జన్యు నమూనాను ఉపయోగించి ప్రతి SNPలోని ఫినోటైప్ను విడిగా తిరోగమనాన్ని కలిగి ఉంటాయి. రిసెసివ్, డామినెంట్, SNP-SNP, లేదా SNP-పర్యావరణ పరస్పర చర్యల కోసం గణాంక నమూనాలు ఉన్నప్పటికీ, పరీక్ష భారం జన్యు-వ్యాప్త డేటా కోసం సాధ్యమయ్యే అన్ని ప్రభావాల మూల్యాంకనాన్ని అసాధ్యమైనదిగా చేస్తుంది. మేము రెండు-దశల విధానాన్ని సమర్థిస్తాము, ఇక్కడ మొదటి దశలో వివిధ రకాల SNP ప్రధాన మరియు పరస్పర ప్రభావాలకు సున్నితంగా ఉండే ఫిల్టర్ ఉంటుంది. రెండవ దశలో మరింత నిర్దిష్టమైన మోడలింగ్ సాధ్యమయ్యేలా SNPల సంఖ్యను గణనీయంగా తగ్గించడమే లక్ష్యం. మేము ఫిల్టర్గా ఉపయోగించగల “గ్రేడియంట్ బూస్టింగ్ మెషిన్” (GBM) అనే స్టాటిస్టికల్ లెర్నింగ్ పద్ధతి యొక్క మూల్యాంకనాన్ని అందిస్తాము. GBMకి జన్యు నమూనా యొక్క ప్రియోరి స్పెసిఫికేషన్ అవసరం లేదు మరియు పెద్ద సంఖ్యలో కోవేరియేట్లను చేర్చడానికి అనుమతిస్తుంది. బహుళ GxE పరస్పర చర్యలను అన్వేషించడానికి GBM ఉపయోగించబడుతుంది, ఇది GWASలో ఉపయోగించే పారామెట్రిక్ ఫ్రేమ్వర్క్లో సాధ్యం కాదు. GWASలో సాధారణంగా ఉపయోగించే ప్రామాణిక సంకలిత రిగ్రెషన్ మోడల్కు అనుకూలమైన పరిస్థితులలో కూడా GBM బాగా పనిచేస్తుందని మేము అనుకరణలో చూపుతాము మరియు పరస్పర చర్య చేసే వేరియబుల్స్లో ఒకటి సున్నా ప్రధాన ప్రభావాన్ని కలిగి ఉన్నప్పటికీ పరస్పర ప్రభావాలను గుర్తించడంలో సున్నితంగా ఉంటుంది. రెండోది GWASలో గుర్తించబడదు. మా మూల్యాంకనంతో పాటు హెయిర్ మోర్ఫాలజీకి సంబంధించిన అనుభావిక డేటా విశ్లేషణ ఉంటుంది. అత్యధిక ర్యాంక్ ఉన్న SNPల సంఖ్యను పెంచడం ద్వారా వివరించబడిన ఫినోటైపిక్ వైవిధ్యాన్ని మేము అంచనా వేస్తాము మరియు రెండు-దశల విధానం యొక్క మొదటి దశలో 10K-20K SNPలను ఎంచుకోవడం సరిపోతుందని చూపుతాము.