3月20日,棉花遗传育种团队在国际遗传学顶尖期刊《自然遗传学》(Nature Genetics)发表研究成果(A pangenome reference and population studies link structural variants with breeding traits inGossypium hirsutum),构建了首个棉花端粒到端粒(T2T)泛参考基因组,揭示了百年陆地棉育种进化中结构变异及基因效应。

棉花塑造了全球历史、推动了工业化进程,促进了人类文明发展。棉花品种创新是发展棉花生产的加速器,然而有限的泛基因组和模糊的基因组结构,限制了棉花遗传变异全面发掘和育种性状精准改良。该研究首先组装了陆地棉优质品种“农大棉13号”(NDM13)T2T基因组,以及一个世纪以来的其他27个代表品种的近T2T基因组;发现了所有基因组中均存在的51551个一对一保守的直系同源基因,以及端粒、着丝粒、45S rDNA、片段重复(SD)和拷贝数变异(CNV)的染色体分布状态;构建了28个品种15种不同植株组织的基因转录组图谱,揭示了结构变异(SV)的热点区以及SV、SD和CNV对基因表达或含量变化以及抗逆性的影响;发掘了数千个现代育种进化中的差异SV及其相关基因;基于NDM13的T2T为参考的泛基因组构建,以及在全球1600余份种质资源样本中鉴定出的76万余个SV和来自我国长江流域、黄河流域和西北内陆三大棉区22个环境(地点、年份)的产量、品质、抗病性表型鉴定数据,捕获了大量影响关键育种性状的SV。研究成果有望推动作物的遗传研究和生物技术改良。
一、28个T2T基因组组装和基因家族及表达规律
根据地理来源、育种用途、表型变异和分子亲缘关系等因素,从源自世界多个植棉国、涵盖最近一个世纪(1910s–2020s)育种历程的1671个重测序(平均测序深度为11.87×)品种(系)中,选取28个具有代表性的棉花品种(中国徐州209、陕401、豫棉1号、苏棉1号、新陆中3号、中植372、泗棉3号、冀棉20号、渝棉1号、农大94-7、赣棉11号、鄂抗棉9号、苏棉22号、中棉所41、中棉所49、鲁棉研28、石抗126、农大棉13号、冀农大23号、农大1109,美国Express、Coker100-wilt、Deltapine15、Stoneville453,108夫、塔什干1号,澳大利亚CS-8S、SicalaV-2)。首先,组装了纤维品质最好的国标I型优质棉品种“农大棉13号”(NDM13)(表现抗病虫、耐盐碱、高产优质,纤维长度32.2–32.6mm,比强度32.9–33.4cN/tex,马克隆值4.1–4.2,整齐度指数84.7-85.0%,纺纱均匀指数162–165,2019年获得国家科学技术进步奖二等奖)的T2T基因组,基因组总长2294.02 Mb,并且解锁了所有着丝粒、端粒和45S rDNA等染色体复杂区域。随后,对其他27个代表性棉花品种进行了基因组从头组装,破译了其全部染色体序列,基因组总长度平均为2294.90(2291.33–2298.52)Mb,染色体序列连续性、完整性和准确性与NDM13相当(近T2T)。组装的28个棉花T2T基因组contig N50平均为108.27(107.83–108.63)Mb,正乃染色体At02的长度。
28个基因组平均注释了79878(79373–80450)个蛋白质编码基因,总共85211个基因家族,并在所有基因组中鉴定出51551个保守的一对一同源基因。对每个品种在开花结铃期的15个营养组织和生殖组织的RNA测序数据进行分析,发现核心基因在生殖过程和物质吸收方面更为活跃,有24972个核心基因在纤维组织中的表达量显著高于其他14种组织中的任何一种,这些基因主要集中在与纤维发育相关的生物过程。

二、结构变异(SV)和热点区及对基因组成和表达影响
在28个基因组平均鉴定出7746(3282–10088)个四种类型的结构变异(SV≥30bp),即相对于NDM13基因组的插入(INS)、缺失(DEL)、倒位(INV)和易位(TRANS),总计33715个非冗余SV,覆盖258.15 Mb的基因组序列。发现3387个INS和3541个DEL位于5989个基因(INS/DEL-gene)或其1kb侧翼区域,可能通过影响编码和调控位点而改变基因功能,针对每个基因组相对于NDM13的4691(4605–4864)个一对一的直系同源基因,研究发现INS-gene和DEL-gene的表达水平显著高于非INS-gene和非DEL-gene,在15种组织中均是如此,表明这些INS和DEL与基因表达水平提高有关。

28个基因组的INS和DEL在染色体上呈非均匀分布,共发现202个变异热点区域,同时在不同品种之间也观察到了差异,揭示了育种进化过程中产生的SV多样性。At01染色体上的一个SV热点包含653个独立SV,平均长度931(30–16023)bp,并且包含一个由6个dirigent家族成员组成的基因簇,这些基因在非生物和生物胁迫中调节细胞壁代谢。在Dt01染色体的另一个热点区有446个独立的SV,聚集着20个抗病性相关基因。表明变异热点区在抗逆育种进化中具有重要作用。
28个T2T基因组使棉花中INV和TRANS的准确鉴定成为可能。在46个重叠基因的INV中,34.78%导致基因数量增加,而36.96%导致基因数量减少。在At09 PCR验证17.95kb长的INV导致108-F和Coker100-wilt两个棉花品种中2个MGL抗病基因的丢失。87.65%的倒位与串联重复序列重叠或相邻,暗示倒位形成最有可能的机制是非等位同源重组。发现35.39%的易位事件导致了基因的新生或丢失,其中分别有64.81%和84.92%属于染色体间TRANS,表明染色体间易位更有可能导致基因组成的变化。每个基因组中易位事件所涉及的所有基因主要富集于植物生长发育以及生物和非生物胁迫响应路径。
三、现代育种塑造的棉花基因组变异以及对性状的影响
现代育种塑造的棉花基因组变异状况尚不明确。因此,将2000年以来我国培育的10个现代品种与创始品种Deltapine15(1950年引入的美国品种)和徐州209(1958年从美国Stoneville2B中选育)的结构变异进行比较,发现现代品种在纤维产量和品质性状方面比创始品种有了显著的改良。在所有现代品种中分别鉴定出398个和433个与Deltapine15和徐州209相同的SV,涉及许多基础代谢相关基因。重要的是,在至少1个现代品种中分别鉴定出7211个和7930个与Deltapine15和徐州209不同的SV,其中分别有393个和47个与纤维品质和产量性状相关,反映了我国品种改良过程中变异谱系和对现代育种的遗传贡献。
分析位于基因体或调控区域的差异SV(SV-gene),在现代棉花品种与Deltapine15和 徐州209进行比较时,分别鉴定出6677个和7473个一对一的直系同源SV-gene,其中81.13%(5417个)和81.16%(6065个)在15种棉株组织的至少1种中表达。分析表明这些变异在育种进化过程中对生物/非生物胁迫响应和纤维发育产生了重要影响。
四、图形基因组构建和群体变异及对重要育种性状影响
利用NDM13基因组作为线性基准参考,并基于27种棉花中的32970个非冗余的插入/缺失序列(≥30bp)构建了图形基因组。对1671个深度测序品种(系)进行基因分型,总共鉴定出30840个INS/DEL-SV,分型SV比例高达93.54%,表明该图形基因组中SV的代表性广泛。进一步确定了2382个差异显著的SV(支持样本数≥30)在至少1种纤维品质和产量性状(22个环境的表型)中存在差异,包括纤维长度、强度、细度、棉铃重、衣分和子指等。利用28个棉花品种与棉铃和纤维形成相关的5个组织(苞片、子房、未成熟胚、纤维和棉铃壳)RNA测序数据分析,发现1027个SV与基因表达水平显著相关,预示这些基因影响着纤维品质和产量性状。发现Dt06染色体上1个纤维长度QTL包含MHCKBL基因,其启动子存在196bp SV,导致上游序列发生差异,进而影响基因表达。在纤维伸长阶段,SV与基因表达水平之间存在极显著的负相关,导致纤维长度29.30mm与26.56mm的显著差异。转基因棉花试验进一步证明位于MHCKBL的196 bp SV导致了纤维长度的具有纺纱经济价值的变化。
GWAS揭示了2768个SV与纤维产量、品质、开花期和黄萎病抗性显著关联。重要的是,新发现了一些与先前研究相比具有显著关联信号的染色体区域,包括针对纤维长度的At02和Dt03、针对纤维强度的Dt11和Dt13、针对纤维细度和成熟度的At05和Dt03、针对棉铃重的At12、针对衣分率的Dt03和Dt11, 以及针对子指的Dt11等区域,其中一些与前人报道的QTL相对应,并产生了新的关联变异,例如有45个SV增加了对棉花黄萎病的抗性。在Dt11上发现的与纤维强度相关的新信号,揭示了1个2845bp缺失片段,覆盖了编码冷响应蛋白激酶1基因(CRPK1)。对影响纤维强度的细胞壁增厚初期和峰值阶段的纤维RNA测序分析,CRPK1在高强力品种中特异性表达,表明这一SV通过CRPK1影响了纤维强度。
该研究得到了国家重点研发计划,河北省教育科学研究、自然科学基金、重点研发计划和高端人才项目,生物育种国家重点专项、现代农业产业技术体系、高层次人才计划和神农英才计划资助。张艳教授、孙正文副教授、田仕林研究员、吴立强研究员、谷淇深博士、柯会锋高级实验师、张桂寅研究员为同等贡献第一作者,王省芬教授、马峙英教授为通信作者。
团队简介:河北省委、省政府命名的“棉花品种创新与产业化”巨人计划创新团队,获得中华农业科技奖优秀创新团队奖。完成和承担国家重大科技专项、支撑计划、973计划、863计划、自然科学基金等课题70余项,育成审定棉花新品种26个,在Nature Genetics(2014、2018、2021)、Nature Biotechnology(2015)、Advanced Science(2023、2025)、Plant Biotechnology Journal(2017、2021)、Plant Journal(2015、2019、2021)、Molecular Plant Pathology(2019、2021、2025)、Chinese Science Bulletin(2006、2007、2009)等发表论文200余篇。获得国家科学技术进步奖二等奖3项(2009、2011、2019)、省部级科学技术一等奖6项。获何梁何利基金科学与技术创新奖、中华农业英才奖、中国作物学会科学技术杰出成就奖、河北省科学技术突出贡献奖。培养博士后、博士、硕士研究生200余名,获国家教学成果二等奖1项、河北省教学成果一等奖1项,获全国优秀教师奖章、全国五一劳动奖章、国家教学名师奖等。