完全な線虫ゲノム配列を決定
- ヘッドライン
- 記者発表
東京大学
発表のポイント
◆1998年に多細胞生物で初めてゲノムが報告された線虫のゲノム配列を完全に決定しました。
◆線虫の新しい遺伝子を含む遺伝子集合を決定しました。
◆今後、線虫は合成生物学のモデル生物として発展することが期待されます。
発表概要
東京大学大学院新領域創成科学研究科メディカル情報生命専攻の森下真一教授、市川和樹助教(研究当時)、飯野雄一東京大学名誉教授、同大学大学院理学系研究科生物科学専攻の豊島有准教授、スタンフォード大学のアンドリュー・ファイヤー教授、コーネル大学のエリック・シュワルツ博士の研究グループは、線虫(学名Caenorhabditis elegans、注1)の完全なゲノム配列(注2)を報告しました。
線虫は、タンパク質やRNAの機能から発生や神経生物学における多細胞相互作用に至るまで、幅広く生物学のモデルとなっています。線虫は、多細胞生物の中で初めて、1998年にゲノム配列が報告されましたが、ゲノム配列を完全に決定することは未解決問題として残っていました。研究チームはロングリード解読(注3)を使いこなす技術を研究開発しました。その技術により、完全な線虫ゲノムを構築し、21,238個の遺伝子を同定しました。今後線虫は動物の合成生物学(注4)にとって理想的なテストシステムとなる可能性があります。
線虫(学名Caenorhabditis elegans)の3つの成長過程
画像提供 Marie-Anne Félix 博士, Ecole Normale Supérieure, Paris, France
発表内容
〈研究の背景〉
現代生物学の理解において、ゲノム配列全体を決定しその特徴を明らかにすることは重要です。線虫は1998年にゲノム配列が決定された最初の多細胞生物であり、2005年までそのゲノム配列は完全で穴が空いてないと考えられていました。しかし、本研究チームは2019年に、線虫ゲノム配列は不完全であることを報告し、線虫ゲノム配列の完全解読は未解決問題として残っていました。
〈研究の内容〉
線虫の最初のゲノム配列は、標準的な野生株N2から作製されました。N2は1969年に初めて凍結保存された時点でも遺伝的多型性(注5)を有していたと考えられ、さらに、2000年代に入っても遺伝的多型が蓄積され続け、最初の株を反映した凍結保存株は存在しません。このように、最初のゲノム配列と一致する野生株が存在しないため、N2から派生した株 VC2010のゲノム配列を決定することを私たちは試み2019年に発表しましたが、10を超えるゲノム領域が解明できませんでした。これらの未解明領域には、5S rRNA遺伝子(単位長980塩基)、45S rRNA遺伝子(単位長7,197塩基)、pSX1配列(単位長172 塩基)の縦列型の繰返し配列(注6)、そして2つのテロメア領域(注7)が含まれていました。
未解明領域を解決するために効果を発揮したのがロングリード解読の進展です。2022年にはヒトの完全ゲノム配列が解読されました。ただし線虫ゲノムの場合、解読がとりわけ困難だった例として45S rRNA遺伝子領域があり、今回初めて全長が77.2万塩基であり7,197塩基の単位が 107個繰り返すことを明らかにできました(図1)。また 183個の新しい遺伝子を同定し、従来から知られている遺伝子と合わせて 21,238個の遺伝子がコードされていることが分かりました。
図1:今回解読に成功した難読領域の例
上図は、45S rRNA遺伝子領域(長さ77.2万塩基)を 16本の Nanopore DNA 断片配列を重ね合わせながら被覆した様子を示す。DNA断片配列の長さは kb(千塩基)で表示しており、例えば 345 kb は 34.5万塩基を示す。DNA断片配列の重なりが共有している 7色の縦棒が位置的目印を表し、各目印の数字は 45S rRNA遺伝子内での座標を示す。下図は16本のDNA断片配列を重ね合わせた45S rRNA遺伝子領域。
〈今後の展望〉
完全なゲノム配列ができた結果、ゲノム配列を機能的に改変したモデルを人工的に設計し、その改変モデルに基づいてDNAを合成して細胞内で増殖させ、得られた結果が機能改変モデルを支持するかどうかを実験的に検証することが現実的になりました。これまで、こうした合成生物学は、大腸菌や出芽酵母などの単細胞生物で試されてきました。線虫の複雑性は単細胞生物よりは大きいもののヒトよりは小さく、この中程度の複雑さにより線虫は動物の合成生物学にとって理想的なテストシステムとなる可能性があります。
発表者
東京大学
大学院新領域創成科学研究科 メディカル情報生命専攻
森下 真一 教授
市川 和樹 研究当時:助教
飯野 雄一 東京大学名誉教授
大学院理学系研究科 生物科学専攻
豊島 有(准教授)
スタンフォード大学
アンドリュー・ファイヤー 教授
コーネル大学
エリック・シュワルツ 博士
論文情報
雑誌名:Genome Research
題 名:CGC1, a new reference genome for Caenorhabditis elegans.
著者名:Kazuki Ichikawa, Massa J. Shoura, Karen L. Artiles, Dae-Eun Jeong, Chie Owa, Haruka Kobayashi, Yoshihiko Suzuki, Manami Kanamori, Yu Toyoshima, Yuichi Iino, Ann E. Rougvie, Lamia Wahba, Andrew Z. Fire, Erich M. Schwarz, and Shinichi Morishita*
DOI: 10.1101/gr.280274.124
URL: https://doi.org/10.1101/gr.280274.124
研究助成
本研究は、国立研究開発法人日本医療研究開発機構「ゲノム医療実現バイオバンク利活用プログラム、ゲノム医療実現推進プラットフォーム・先端ゲノム研究開発、研究課題名ヒトゲノム De Novo 情報解析テクノロジーの創出(課題番号:24tm0424219h0004)」および文部科学省科学研究費助成事業「先進ゲノム支援(課題番号:22H04925(PAGS))」の支援により実施されました。
用語解説
(注1)線虫(学名Caenorhabditis elegans)
タンパク質やRNAの機能から、発生や神経生物学における多細胞相互作用に至るまで、幅広く生物学のモデルとなっている生物。
(注2)ゲノム配列
ゲノムとは遺伝情報全体を保持した塩基配列で構成された物質(DNA)であり、その塩基配列のことをゲノム配列と呼ぶ。ゲノム配列は長く、線虫の場合は約1億塩基の長さがある。ゲノム配列を解読するためのシーケンサーは、長い配列を一度に読み取ることができないため、ゲノムを細かく断片化し、それらの断片をつなぎ合わせて全体の配列を解読する。断片の長さが100塩基程度を解読できるショートリード解読から、1万塩基以上を解読できるロングリード解読(注3)に大きく分かれる。
(注3)ロングリード解読
長さ1万塩基以上の長い断片配列(ロングリード)を読み取る解読技術。PacBio 社の Sequel II やRevio および Oxford Nanopore 社の PromethION 等が市場では普及している。前者の塩基精度が 99.9% で長さが 2万塩基程度に対して、後者の塩基精度は99% で長さは出力量の10%程度が10万塩基を超える。
(注4)合成生物学
ゲノムを機能的に改変したモデルを人工的に設計し、その改変モデルに基づいてDNAを合成して細胞内で増殖させ、得られた結果が機能改変モデルを支持するかどうかを実験的に検証する生物学的アプローチ。
(注5)遺伝的多型性
生物の種としては維持される程度のゲノム配列中の変化で、種分化は起こさないような変化。
(注6)縦列型の繰返し配列
1つの単位となる配列がその近傍で縦列的に何度も繰り返して広がった配列。線虫ゲノムには5S rRNA遺伝子(単位長980塩基)、45S rRNA遺伝子(単位長7,197塩基)、pSX1配列(単位長172 塩基)の各領域が顕著に広がっている。縦列型の繰返し配列を解読する際には、短いゲノム断片配列では繋ぎ合わせる際に曖昧性が生じる。そこで長いゲノム断片配列で縦列型の繰返し配列全体を覆うことが必要になる。
(注7)テロメア領域
染色体の両端にある縦列型繰返配列。線虫ゲノムの場合、GGCTTAが繰り返す長さ 1200〜6800塩基のテロメア領域が同定された。