Hi-C技術是將染色質構象捕獲與高通量測序結合的一種新技術。 該技術將線性距離遠、 空間結構近的DNA片段進行交聯富集后Pair-end測序, 通過對測序數據分析即可揭示染色質的各DNA各區段的交互作用,從而推導出基因組的三維空間結構和基因之間可能的調控關系。
不借助遺傳圖將基因組掛載到染色體水平。每一個基因組都需要一個Hi-C
Hi-C建庫測序實驗采用Hi-C的類型是in situ Hi‐C,主要包括細胞交聯、內切酶酶切、末端修復、環化、DNA純化及捕獲和二代上機測序等步驟。
Hi-C輔助陸地棉與海島棉基因組染色體水平組裝
(Wang et al.,Nature Genetics 2018)
Hi-C輔助陸地棉染色體結構變異檢測
(Yang Z?et al.,Nature Communications 2019)
Hi-C輔助TAD結構研究
(Wang et al., Nature Commuications 2018)
1、Hi-C無需群體,單一個體就能實現染色體定位
很多物種都無法構建遺傳群體,包括大部分高等動物、野生動植物、林木、果樹等等。Hi-C是通過染色體上空間距離、線性距離的不同而導致的交互頻率的不同來完成染色體的定位,所以不需要構建群體。
2、標記密度更大,序列定位更完整
相比遺傳圖譜,染色質之間的交互頻率具有更高的標記密度,如此高密度的圖譜不僅可以掛載上長的Scaffold,較短的Scaffold也可以被定位,所以通過Hi-C技術,一般可以將90%以上基因組序列定位到染色體。
3、可以對已組裝的基因組進行糾錯
通過Scaffold間的交互頻率大小,可以對已組裝的基因組序列進行糾錯。
環境樣品 | 送樣要求(濃度≥20ng/ul,總量≥3ug?) | 保存及運輸 |
單細胞真菌 | 顯微鏡下觀察酵母菌生長狀態,最好收集生長期處于對數期的酵母菌;將適量體積的酵母菌液轉移至將2mL旋蓋尖底離心管中(無菌,無核酸酶),于室溫下14000×g?離心1min;棄盡培養基,將酵母細胞沉淀迅速置于液氮中冷凍3h以上,然后轉移至-80?°C長期保存 | 樣本-80?°C或液氮中長期保存,干冰運輸 |
大型真菌 | 從菌體上,取下生長旺盛的組織,用無菌水沖洗干凈,再使用?75%乙醇沖洗,用吸水紙吸干樣品表面;如果組織體積較大,應盡量將組織剪切成長寬高均≤0.5cm?的小塊;將處理好的組織樣本保存于2ml?或更大體積的旋蓋凍存管中或者用準備好的錫箔紙包裹組織 |
三代+光學+HIC拯救復雜基因組—-大麥基因組Nature篇。新鮮出爐的消息,新版大麥基因組又發nature啦!大麥基因組到底經歷了怎樣的困局?到底是什么解救了大麥基因組?后續大麥基因組還會發Nature嗎?重復序列比例過高如何解決?新技術的到來更新基因組的必要性到底如何?
大麥基因組的困局:
大麥作為重要的經濟作物,其在農業上的重要性毋需本編過多描述。大麥基因組破解工作本處于第一梯隊,為何初版基因組在2012年才發布呢?原因就是大麥基因組的屬于高重復的復雜基因組,通過當前技術是無法很好解決的。雖然只有7條染色體,但是基因組的重復序列比例高達84%,同時基因組大小在5.1 Gb,相比于人,水稻等簡單基因組,技術上存在很大的難度。和人類基因計劃一樣,通過集齊全世界科學家的努力,構建了大量的BAC文庫,得到了物理圖,同時基于遺傳圖譜,得到了初版基因組。雖然通過綜合各種技術,得到的了基因組序列在4Gb 左右,但其可靠性,準確性難以保障。就拿二代數據來說,當時只組裝出了1.9 Gb contig的序列,指標更是無從說起。雖然全世界科學家的努力不可否認也不容質疑,但現在看來,初版大麥基因組給人的感覺只能是有勝于無!
到底是什么解救了大麥基因組?廢話不多說,看看人家的組裝結果(表1)。
文章中使用的技術手段包括BAC+Illumina+BioNano+HiC+Genetic Map,得到了4.79 Gb基因組序列,最終利用HIC和遺傳圖分別將95%和97%的序列掛到了染色體的水平。相比于初版基因組,組裝水平高了不只是一大截啊,這就是技術上的勝利!話說,基于此版基因組,預測出的基因編碼區至占到了整個基因組的1.4%,而轉座原件(重復序列的一個大類)卻占到了整個基因組的80.8%。所以說,大麥基因組的難度的確大啊!請看文章中描述的組裝技術路線:
文章中做了哪些分析?
1、染色體間外大小臂之間的交互
通過HIC熱圖作者發現無論是染色體內部還是染色體間的長短臂之間都存在較強的交互信號。按照HIC的原理來說,染色體上空間作用越強則實際DNA間的物理距離越近,染色體大小臂及不同染色體間的相互作用應該是極弱的。為了找出原因,作者通過對大麥葉核間期的細胞進行著絲粒及端粒熒光雜交,發現所有染色體的端粒和著絲粒在空間上的位置都純在極性,且排列方式也極其相似,不同染色體間的大小臂其實在空間上距離很近,因此確實存在染色體內外大小臂之間大量的交互作用的可能。
2、染色體上重復序列及基因密度
利用染色體位置信息,通過對20-mer頻率將染色體進行劃分成了三種區域,每種區域上在基因密度,重組率,LTR插入時間以及GC含量上都存在一定的規律。
3、基因家族分析
通過對大麥基因組進行基因家族收縮擴張分析發現,收縮擴張的家族中最顯著的部分都與植物防御及抗病相關。另外,作者對麥芽品質相關的amy家族及糖代謝相關的SWEET家族進行了亞家族分類,多倍化及表達模式相關的分析。
4、遺傳多樣性及單體型分析
基因組在分子遺傳育種中具有極其重要的作用,本文中作者對來自歐洲的冬季及春季小麥兩個群體進行了遺傳多樣性及單體型相關分析。最終發現,這兩個群體在不同的染色體位置上的多樣性程度及連鎖強度都存在不同特點。如果沒有一個好的基因組,很難全面了解群體間的變異情況,會給功能育種上帶來困難。
大麥基因組還能發Nature嗎?重復序列比例過高如何解決?
雖然此版基因組已經發表,但是本編覺得就目前的技術而言,大麥基因組還是有很大的提升空間。有咩有發現,此版大麥基因組沒有使用當前主流基因組所使用的三代測序技術?雖然此版本基因組相較于第一版基因組提升較大,但是基因組裝的過于零碎仍舊是事實。畢竟此版基因組的contigN50才79Kb,而super scaffold N50也才1.9Mb。一旦過于零碎,肯定會導致許多基因無法被預測出,這將對后續基因組的功能解讀及研究增加困難。目前,三代測序技術在基因組完整性上能夠有很好的發揮,同時在基因組結構變異上也能夠有所保障。針對大麥基因組,已經有了如此多的數據,本編認為,如果后續如果再加入純三代測序數據,contigN50達到Mb級別是極其輕松的!在這里可以和大家透露下,本編最近接觸到另一個高重復的物種(預測出的重復序列比例高達84%),通過純三代+HiC組裝,在組裝指標及完整性上都秒殺了此版本的大麥。所以大麥還會不會發Nature,大家都應該明白了!
參考文獻:A chromosome conformation capture ordered sequence of the barley genome
Chromosome-scale assembly of the Sparassis latifolia genome obtained using long-read and Hi-C sequnencing
發表時間:2021
合作單位:福建農業科學院
發表期刊:G3(Genes|Genomes|Genetics)
研究背景:隨著工業化和城市化進程的推進,多環芳烴類污染物在水體沉積物中頻繁檢出,給水生態安全和人類健康造成極大威脅。本研究通過結合梯度稀釋培養法、傳統的分離培養技術以及宏基因組這這下學分析等多種方法手段,深入解析了黑臭河流沉積物中硫酸鹽呼吸耦合多環芳烴降解的核心功能微生物組。
測序策略:三代測序(ONT)+Hi-C
研究結論:通過ONT和高通量染色體構象捕獲 (Hi-C) 技術得到了S. latifolia SP-C菌株基因組完成圖。本次總共產生8.24 Gb的ONT數據,S. latifolia的測序覆蓋率為198.08X,通過組裝得到了41.41 Mb的高質量基因組,scaffold和contig N50 的大小分別為3.31和1.51Mb。通過Hi-C輔助組裝技術進一步組裝成12條染色體的基因組,這些染色體包含93.56%的堿基,基因組的17.47%由重復序列組成。此外,預測了13103個蛋白質編碼基因,其中98.72%的基因獲得了功能注釋,BUSCO評估完整度為92.07%。在S. latifolia基因組中還鑒定出126個tRNA、75個rRNA和36個其他非編碼RNA,利用OrthoMCL對S. latifolia單拷貝和多拷貝進行分類,發現S. latifolia SPC與S.crispa SCP的共同基因多于S. latifolia CCMJ1100,系統發育顯示,S. latifolia SPC與S.crispa SCP有更緊密的親緣關系,MCScanX共線性分析證實了上述結果。
參考文獻:Yang C, Ma L, Xiao D, et al. Chromosome-scale assembly of the Sparassis latifolia genome obtained using long-read and Hi-C sequencing[J]. G3, 2021
Hi-C技術是染色質構象捕獲技術( Chromosome conformation capture )與高通量測序( High-throughput sequencing )結合衍生的一種技術。主要是利用全基因組范圍內整個染色質DNA在空間位置上的關系,對染色質內全部DNA相互作用模式進行捕獲,結合生物信息學方法,來獲得染色體水平的基因組序列并得到染色質三維結構信息。此外還可以并與Chip-seq、轉錄組數據聯合分析,從基因調控網絡和表觀遺傳網絡來闡述生物體性狀形成的相關機制。