Секвенцирање и аутоматизовано оптичко пресликавање генома домаће козе (цапра хирцус) | природа биотехнологија

Секвенцирање и аутоматизовано оптичко пресликавање генома домаће козе (цапра хирцус) | природа биотехнологија

Anonim

Субјекти

  • Генетско мапирање
  • Геномицс
  • Секвенцирање

Апстрактан

Извештавамо о секвенци генома 2.66 Гб за женску црну козу Иуннан. Секвенца је добијена комбиновањем кратко очитаних података о секвенцирању и података оптичког мапирања са високопропусног инструмента за мапирање целог гена. Подаци за целокупни геном мапирања су олакшали састављање супер-скела> 5 × дуже по Н50 метри него скеле повећане фосмидним секвенцирањем (скеле Н50 = 3, 06 Мб, супер скеле Н50 = 16, 3 Мб). Супер скеле су усидрене на хромозомима заснованим на очуваној синтети са говедом, а склоп је добро подржан од две радијационе хибридне мапе хромозома 1. Аннотирамо 22.175 гена који кодирају протеине, од којих је већина опорављена у РНА-сек подацима 10 марамице. Упоредним транскриптомским анализама примарних и секундарних фоликула козе од кашмира откривају се 51 гена који су различито експримирани између две врсте фоликула длаке. Ова студија, чији ће резултати олакшати геномику коза, показује да се технологија мапирања целог генома може користити за де ново састављање великих генома.

Главни

Домаћа коза ( Цапра хирцус ) широко је узгајана у целом свету, посебно у Кини, Индији и другим земљама у развоју 1 . Козе служе као важан извор меса, млека, влакана и крзна, а такође су испуниле пољопривредну, економску, културну, па чак и религиозну улогу још од раних времена у људској цивилизацији 2 . Докази указују да је коза могла бити припитомљена из два дивља Цаприса ( Цапра аегагрус и Цапра фалцонери ) ∼ пре 10.000 година унутар плодног полумесеца, а затим се брзо проширила пратећи обрасце миграције и трговине људима 3 . Данас постоји више од 1000 пасмина коза, а> 830 милиона коза се чува широм света према извештају Организације УН за храну и пољопривреду (//ввв.фао.орг/цорп/статистицс/ен/). Поред вредности као домаће животиње, козе се сада користе као животињски модели за биомедицинска истраживања, како би се истражила генетска основа сложених особина и трансгена у производњи пептидних лекова 4, 5 . Упркос пољопривредном и биолошком значају коза, узгој и генетичке студије ометао је недостатак референтне секвенце генома. У овом раду смо комбиновали Иллумина технологију секвенцирања следеће генерације и целокупно мапирање великих молекула ДНК да бисмо добили секвенцу генома за домаћу козу. Затим смо означили геном и идентификовали гене који се брзо развијају. Надаље, на основу аннотираног скупа козјих гена, генерисали смо и упоредили транскриптомске податке из секундарних фоликула длаке (које стварају кашмирово влакно) са подацима из примарних фоликула длаке кашмира Унутрашње Монголије, бацајући светлост на генетску основу формирања од кашмирових влакана.

Мапирање са целим геномима је побољшана технологија оптичког мапирања велике пропусности. Оптичко мапирање је коришћено да се упореди структура бактеријских генома 6, 7, 8, комплетан склоп бактеријског генома 9, 10, помогне се у саставу бактеријског вештачког хромозома (БАЦ) 11 и исправљају грешке у састављању генома 12 . Два биљна генома 13, 14 недавно су секвенционирана помоћу БАЦ-а састављених таквим оптичким мапирањем. Међутим, традиционални процес генерисања података о оптичким мапирањима укључује углавном ручне кораке, и као резултат, примарне примене оптичког пресликавања биле су у састављању бактеријских генома, интеграцији БАЦ краја и секвенцирању БАЦ клона и итеративној корекцији склопова. Иако се традиционално методе оптичког мапирања успешно примењују, оне су сложене и имају малу пропусност, пре свега због захтеваног проширења ДНК, снимања слике и корака анализе података нису ефикасни. Као резултат, није било могуће генерисати и обрадити огромне количине података о оптичком пресликавању које су потребне за састављање великог и сложеног генома.

Да бисмо добили мапу рестрикције козе читавог генома, користили смо аутоматизовани инструмент високог протока мапирања целог генома и недавно развијени софтвер за обраду података. Инструмент користи уређај за формирање сличног чипу (ЦФД) да се протеже и имобилизира појединачне молекуле ДНК на позитивно наелектрисану стаклену површину унутар патрона за једнократну употребу (Сл. 1а и Допунске методе). Ово, у комбинацији са аутоматизованим сликањем и анализом података, решава многе неефикасности које су ограничиле примену оптичког мапирања на велике геноме. Инструмент је аутоматски произвео 100 000 мапа рестрикције од једног молекула за 3 сата, пружајући 12 × физичку покривеност геному козе. Затим смо користили хибридни начин склапања за генерисање супер дугих скела (супер скеле) комбинујући експериментално измерене једно-молекуларне мапе са силиконским рестрикцијским мапама израчунатим из скела састављених из података секвенцирања Иллумина (Сл. 1б и Додатне методе). Дуге супер скеле су олакшавале учвршћивање скела на хромозоме.

Image

( а ) Узорци се постављају на уређај сличан чипу, велике густине, који формира канал (ЦФД). Течност пуфера која тече кроз канале протеже ДНК велике молекулске масе на позитивно наелектрисану стаклену површину, која одржава оријентацију и интегритет ДНК током наредних корака. Имобилисани појединачни молекули ДНК се пробављају рестрикционим ензимом 10 мин на 37 ° Ц, обоје се бојом ЈОЈО-1 и сликају. Слике се анализирају канално по каналу ради филтрирања нелинеарно изобличених фрагмената и малих молекула, препознавања празнина између фрагмената и мерења величине задржаних висококвалитетних фрагмената (обојених зелено) како би се произвеле једно-молекуларне мапе рестрикције. ( б ) скеле изведене де ново састављањем података о секвенцији нове генерације претварају се у мапе рестрикције помоћу варења силиконским рестрикцијским ензимом. Затим се растојање између места рестрикцијског ензима у скелама изведеним у секвенцирању подудара са дужинама оптичких фрагмената у мапама рестрикције са једном молекулом. Утакмице омогућавају да се скеле прошире и повезују у супер скеле.

Слика пуне величине

Резултати

Кратко прочитани де ново редослед и монтажа

Секвенцирали смо геномску ДНК од три године старе женске козе Иуннан. Висококвалитетни ДНК издвојен из јетреног ткива коришћен је за конструкцију 14 библиотека за секвенцирање упарених делова са величинама уметака ∼ 180 бп, 350 бп, 800 бп, 2 кб, 5 кб, 10 кб или 20 кб (Додатна табела 1). Користећи Иллумина секвенцијалну платформу, генерисали смо 191, 5 Гб висококвалитетних читања (покривање процијењене величине генома од 65, 6 пута), дужине читања која се крећу од 45 до 101 бп (допунска слика 1). Ове секвенце су састављене де ново користећи СОАПденово (верзија 1.03) софтвера 15, што је резултирало 542.145 контигова и 285.383 скела дужим од 100 бп. Величина конзоле Н50 износила је 18, 7 кб, што представља величину изнад које се може наћи половина укупне дужине секвенце. Величина скеле Н50 износила је 2, 21 Мб (Табела 1). Да бисмо продужили дужину скела, секвенцирали смо крајеве фосмидне библиотеке са просечном величином уметка ∼ 40 кб израђеном из ДНК исте козе (допунски методи и допунска слика 2). Од фосмидних крајева генерисано је укупно 2.041.189 упарених јединствених секвенци, од којих је 140.296 парова било поређаних на различите скеле и на тај начин су били употребљиви за спајање скела. Овај поступак је повећао величину скеле Н50 на 3, 06 Мб (Табела 1) и дао је склоп од 2, 66 Гб који садржи миллион 140 милиона Н с (5, 26%) да попуни празнине. Састављени геном је ∼ 91% од процијењене величине 2, 92 Гб за геном козе, на основу предвиђања помоћу 17 - мерне методе (допунска слика 3). Да бисмо потврдили квалитет ове монтаже, на њу смо пресликали сирове податке који су генерисани из малих библиотека за уметање, а које су коришћене за непрекидно склапање и попуњавање празнина. Преко 89% сировог очитаног краја може се пресликати у монтирани геном козе, од чега је 95% имало исправну оријентацију и тачан размак између крајева, што указује да је склоп у великој мери тачан на локалном нивоу (допунска табела 2) .

Табела пуне величине

Изградња супер скела

Информације о великим групама повезивања, попут хромозома, важне су за анализу везе у узгоју животиња. Иако је састављање података о секвенцији следеће генерације у геном скице сачињено релативно једноставно, изградити физичку мапу структуре хромозома још увек је тешко и скупо. Будући да генетска или физичка карта за козу још увек није доступна, користили смо технологију мапирања целог генома да бисмо генерисали рестрикцијску карту геном козе, а затим саставили скеле у супер скеле које су биле редоследом дужине пуних хромозома.

Да бисмо добили мапе рестрикција за једну молекулу, користили смо велике молекуле ДНК из ћелијске линије фибробласта успостављене од коже из уха секвенционисане женке црне козе Иуннан (допунска слика 4). Помоћу СпеИ рестрикционог ензима генерисано је 3, 447, 997 мапа молекулских рестрикција дужих од 250 кб, просечне величине 360 кб. Укупна величина података карте рестрикције била је ∼ 1, 241 Гб. Алгоритам хибридног склапања, који упоређује експериментално одређене рестрикцијске мапе са силиконским мапама рестрикције израчунатих из скела састављених из података о кратком читању, коришћен је за идентификацију суседних скела и одређивање њихове релативне локације и оријентације (допунске методе). Овај процес се придружио 2090 скела, просечне дужине> 1, 2 Мб, у 315 супер скела. Завршна монтажа је имала Н50 од 16, 3 Мб и покривала је 92% монтираних скела. Преосталих 8% скела било је премало (просечна дужина 713 бп) да би се користиле за мапирање целокупних генома. Највећа супер скела била је 56, 4 Мб (Табела 1).

Да бисмо процијенили квалитет супер скела, користили смо их за мапирање секвенци с израженом козјом израженом секвенцом (ЕСТ) из базе података НЦБИ (//ввв.нцби.нлм.них.гов/нуцест) и саставили нове транскрипте коза које смо добили од десет ткива (∼ 56 Мб укупно). Међу 38.006 ЕСТ-а који су били> 300 бп (просечна дужина 1.006.5 бп), 99.2% је имало хитове који су покривали ≥96.3% њихове дужине, као што је откривено са БЛАТ 16 (верзија 34, идентитет> 95%) (Додатне методе и допунска табела 3).

Такође смо користили цевовод језгре еукариотских гена (ЦЕГМА) за процену склопа коза 17 . Помоћу ње мапирали смо 97, 58% језгре еукариотских гена (//корфлаб.уцдавис.еду/Датасетс/цегма/) из шест моделних организама ( Хомо сапиенс , Дросопхила меланогастер , Арабидопсис тхалиана , Цаенорхабдитис елеганс , Саццхаромицес церевисиае и Саццхаромицес церевисиае ). супер скеле козе са покривеношћу> 70% (допунска табела 4). Ова стопа мапирања већа је од оне добијене за геном 18 стоке, што на тај начин подржава комплетност и висок квалитет монтаже супер скела за козе.

Спајање супер скела на хромозоме

Домаћа коза има 29 пара аутосома и један пар сполних хромозома (2 н = 60) 19 . Цитогенетске поређења указују на висок ниво колинеарности између хромозома козе и говеда, а свих 30 хромозома козе наручени су према Међународном систему номенклатуре хромосома за Бовидсе 20 . На основу хромосомске колинеарности, користили смо два склопа генома говеда (УМД_3.1 и Бтау_4.0) да бисмо засидрали супер скеле за козје хромозоме. Конкретно, 302 од 315 супер скела и 140 других скела који нису били обухваћени супер-скелама прикупљени су у 30 псеудохромосома за козу. Свеукупно смо усидрили 2, 52 Гб на 30 псеудохромосома и доделили 138 Мб неуређених или неусмерених малих скела или супер скела уметном хромозому означеном са У. Ова скупштина, коју називамо ЦХИР_1.0, је доступна у јавности преко интерфејса и базе података претраживача генома (//гоат.киз.ац.цн/ГГД/).

Да бисмо проценили поузданост сидрења хромозома, испитали смо 28 гена коза који су додељени одређеној хромосомској локацији 21 (допунска табела 5). Додјела хромозома свих 28 гена била је у складу са нашим резултатима. Као још један тест квалитета нашег склопа псеудо-хромозома, упоредили смо псеудо-хромосом 1 са две радијационе хибридне мапе козјег хромозома 1 које смо генерисали за мушког корова Бое-а из било 1, 222 маркера једно-нуклеотидног полиморфизма (СНП) на илуминату БовинеСНП50 БеадЦхип (Сл. 2а и додатне методе) или 1, 567 произвођача СНП-а на Иллумина ОвинеСНП50 БеадЦхип (Сл. 2б и Допунске методе). Пронашли смо неколико преправки унутар супер скела, које су састављене без коришћења података о колинеарности говеда. Поред тога, пронашли смо неколико измена између склопа псеудо-хромозома 1 и две хибридне мапе зрачења. Узето заједно, ови резултати сугерирају да су склопови супер скела и хромозома тачни.

Image

( а, б ) Мапе су генерисане коришћењем БовинеСНП50 БеадЦхип ( а ) и ОвинеСНП50 БеадЦхип ( б ). Гоат ГеномеМап је скупљени псеудо-хромозом 1 генерисан сидрењем супер-скела и скела (подручја између супер скела) користећи објављени геном говеда (УМД_3.1 и Бату_4.0). Супер скеле усидрене на хромосому су означене поред ГеномеМап-а. Само неколико преправки (плаве линије између РХМап-а и ГеномеМап-а) постоје унутар супер скела.

Слика пуне величине

Проширили смо поређење између козе и говеда на све хромозоме. Сви аутоми су били у јакој колинеарности (Додатна слика 5а). Будући да је већина козјих супер скела дугачка (Н50 = 16, 3 Мб), ако би супер скеле биле лошег квалитета, очекивали бисмо да ћемо видети много преправки између козе и говеда, али то није случај (на пример високи колинеарност између козе и хромозома говеда, видети допунску слику 5б).

Примјећено је да смо примијетили велике преинаке између Кс хромозома козе и говеда (допунска слика 6), иако се група за повезивање Кс-хромозома обично чува код плацентних сисара 21 . Иста распореда примећена су на Кс хромозомима, упоређујући их са оба склопа генома говеда (УМД_3.1 и Бтау_4.0). Чак и унутар једног супер скела за козе постоје велика преуређења (допунска Сл. 6ц). Будући да су супер скеле састављене без упућивања на податке о синтези говеда, ова преуређења вероватно нису резултат погрешног склапања на основу података оптичког мапирања, већ су последица различитости двеју врста. Поред тога, референтни геном оваца, који је генерисан интегрисањем густих физичких мапа и великог скупа података БАЦ секвенци (И. Јианг и Међународни конзорцијум о геному оваца, необјављени подаци), високо је у складу са нашим геномом коза и садржи иста преуређења на Кс хромозом. Ова запажања сугеришу да су велика преуређења између говеда и каприн Кс хромозома стварна и подржавају високи квалитет нашег састављања генома козе.

Понављајуће секвенце и преносиви елементи

Преносљиви елементи чине значајан део генома сисара и доприносе развоју гена и / или генома 22 . Козји геном има преносиве елементе сличне онима код говеда 22, јер геном садржи велики број понављања специфичних за преживаче, који чине 42, 2% генома козе (слика 3 и додатна табела 6). Међутим, геном коза има ∼ 80% мање СИНЕ-БовА понављања (971.273 код коза и 1.839.497 у говеда) и> 40% више понављања СИНЕ-тРНА (665.366 у коза и 388.920 у говеда), што указује на то да геном говеда СИНЕ-БовА понављање се проширило првенствено у геному говеда 22, док се СИНЕ-тРНА понавља посебно проширио на козу.

Image

(1) Идеограми 30 хромозома козе (у Мб скали). Процењена дужина сваког хромосома означена је у најужем кругу који влада. Границе усидрених супер скела и скела приказане су црним линијама. (2) Генска густина представљена као проценат секвенце кодираних гена за непроклапање, прозора од 1 Мб. (3) Проценат покривености понављајућих секвенци за непроклапање, прозора од 1 Мб. (4) Проценат ГЦ садржаја за непроклапање, прозора од 1 Мб. (5) Стање транскрипције. Ниво транскрипције за сваки ген процијењен је просјеком фрагмената по кб егзонском моделу на милион пресликаних читања (ФПКМ) из различитих ткива у непропусним прозорима од 3 Мб.

Слика пуне величине

Такође смо анализирали степен дивергенције за сваку врсту преносивог елемента у геному козе и открили неколико недавно разведених класа преносивих елемената (допунска слика 7). То може бити резултат потешкоће у позивању понављања с великом сличношћу са подацима о секвенцирању које су укратко прочитане 23 . Међутим, општи обрасци расподјеле класа преносивих елемената кроз хромозоме слични су онима других монтираних генома сисаваца 24, 25 (допунска слика 8).

Биљешке о генима и генима

Користили смо три методе предвиђања гена (напомена заснована на хомологији, предвиђање аб инитио и напомена заснована на РНА-сек- / ЕСТ- / цДНА) за обележавање гена који кодира протеин. Затим смо спојили резултате сваке методе да бисмо добили консензусни скуп гена од 22.175 гена који кодирају протеине (Сл. 3, Допунске табеле 7 и 8), са средњом дужином секвенцирања од 1, 385 бп и просечно осам ексона по гену. Просечне дужине егзона и интрона биле су 168 бп и 3.955 бп, респективно (Додатна табела 7). Укупно, 17, 927 аннотираних гена који кодирају протеине експримирани су у најмање једном од десет ткива која су испитана секвенцирањем транскрипта (РНА-сек) (Слика 3, Допунска табела 9 и //гоат.киз.ац.цн/ГГД/) . Пошто је непреведене регионе тешко напоменути, користили смо читање РНА-сек-а за проширење непреведених региона од 4, 740 гена. Генски модели изведени за козе били су врло слични онима из сродних врста, подржавајући квалитету напомена (допунска слика 9).

Идентификовали смо 17.129 ортолошких парова гена између коза и говеда, и 16.771 ортолошких гена парова између коза и људи. Филогенетско дрво изграђено од 8.325 ортолога са једном копијом код коза, говеда, коња, паса, опоссума и људи сугерира да су козе делиле заједничког претка са говеда пре око 23 милиона година (сл. 4а). Даље смо упоредили ортолошке генске парове између козе и говеда на основу односа несинонимних ( Ка ) и синонимних ( Кс ) стопа замене да бисмо идентификовали 44 гена који се брзо развијају под позитивном селекцијом (допунска табела 10), од којих су седам гена имуног система и три су хормони хипофизе или сродни гени. Брза еволуција гена имуног система такође је примећена код говеда 24 . Брза еволуција хормона хипофизе може бити повезана са разликама између коза и говеда у производњи млека, стопи развоја плода и / или варијацији длаке, што су особине повезане са хормонима хипофизе 26, 27 (допунска дискусија).

Image

( а ) Филогенетско дрво изграђено на четвороструким дегенерираним местима од 8.325 гена са једном копијом. Процјене времена дивергенције и његов интервал на основу идентитета секвенце су назначене на сваком чвору. ( б ) Веннов дијаграм који показује број јединствених и заједничких генских породица међу девет секвенцираних врста сисара. ( ц ) Динамична еволуција ортолошких гена. Процењени број ортолошких група (16, 998) у најновијим уобичајеним врстама предака (МРЦА) приказан је на коренском чвору. Бројеви ортолошких група које су се прошириле или смањиле у свакој линији приказане су на одговарајућој грани; +, проширење; -, контракција.

Слика пуне величине

Скуп је садржао 262 рРНА, 829 тРНА и 1.010 малих нуклеарних РНА гена (допунска табела 11). Такође смо идентификовали 487 гена микроРНА (миРНА), од којих је 157 смештено у 44 геномских кластера који садрже од 2 до 46 гена миРНА (допунска Сл. 10а). Овај образац дистрибуције сличан је оном код говеда. Међутим, постоји неколико гена гроздова миРНА специфичних за козе (допунска слика 10б). Највећи кластер гена миРНА налази се на козјем хромозому 21 (допунска слика 11), који је очувани сисар сродне миРНА групе. Користили смо секвенце миРНА код других врста (човека, говеда, пса, чимпанзе, миша и штакора) да идентификујемо миРНА гене специфичне за козу, и пронашли смо укупно шест гена миРНА специфичних за козу (допунска табела 12), који имају типичне структуре миРНА ( Допунски Сл. 12) и многи циљни гени (Допунски Сл. 13).

На основу сродне протеинске секвенце у паровима, извршили смо анализу генске породице на свим генима коза у поређењу са генима код говеда, коња, паса, миша, пацова, опоссума, шимпанзе и човека. 19.607 гена коза могло би се групирати у 15.628 генских породица (слика 4б и додатна табела 13). Идентификовали смо 40 генских породица специфичних за козе које садрже 106 гена; а 43 од ових гена су експримирана у десет секвенцираних ткива (допунска табела 14). Од 115 гена који су пронађени у 90 генских породица специфичних за преживаре, 68 је изражено (допунска табела 15). Ове породице гена специфичних за родове можда су посебно допринеле развоју коза или преживара.

Такође смо анализирали ширење или контракцију генетских породица код коза, говеда, коња, паса и човека. У свих пет генома пронашли смо већу учесталост контракције гена од догађаја експанзије гена (слика 4ц), што је претходно примећено 28 . Усредсредили смо се на најзначајније догађаје експанзије или контракције ( П <0, 01), а након ручног филтрирања породица гена чији су чланови имали различите додељене функције (Додатна табела 16), открили смо три проширене подфамије гена за олфакторни рецептор, али само једну подгрупу која је уговорена. коза је упоређена са говеда, коњем, псима и човеком. Могуће је да догађаји ширења олфакторних рецептора могу допринети изузетној способности храњења коза 29 . Такође смо приметили ширење породице гена тешког ланца феритина (ФТХ1) у коза, с тим да је број гена ФТХ1 коза готово седам пута већи од човека и два пута код говеда. Ширење ФТХ1 на козе може објаснити његову необичну способност детоксикације, а самим тим и широку прехрамбену исхрану, јер феритин игра главну улогу у секвестрацији, детоксикацији и складиштењу гвожђа 30 .

Два контига који садрже овчје главне локсове компатибилности (такође означени као овчји лимфоцитни антиген или ОЛА) генерисани БАЦ-по-БАЦ секвенцирањем 31 коришћени су за претрагу ЦХИР_1.0 за МХЦ локсе код коза. Као што се очекивало, лоци МХЦ козе били су смештени на хромозому 23 у нашој скупштини. Слично овчјим МХЦ, и коза МХЦ садржи две регије дужине 2, 25 Мб и 360 кб (Сл. 5а). На основу поређења са овчјим МХЦ-ом, који садржи 177 гена, напоменули смо 160 гена који кодирају протеине (допунска табела 17) користећи исту методу као за напомену МХЦ оваца 31 . На основу белешке, такође смо анализирали очуване гене МХЦ локуса код оваца, коза и човека. Иако постоје неке инверзије, које су заједничке за МХЦ локусе, већина сачуваних гена показује високу колинеарност међу козама, овцама и људима (Сл. 5б). Ови резултати не само да указују на то да је наше састављање генома козе доброг квалитета, већ такође пружају детаљну мапу за козу МХЦ која ће бити корисна за имунолошке студије и развој вакцине.

Image

( а ) Карта коза МХЦ и колинеарност коза МХЦ са овцама МХЦ (ОЛА). Зелене линије показују синтетички однос козе МХЦ и ОЛА. Означени су само гени унутар козе МХЦ. Такође је приказан садржај ГЦ-а (%, са проклизавањем, 1 кб прозора). ( б ) Гени сачувани између коза МХЦ (ГЛА), МХЦ оваца (ОЛА) и МХЦ човека (ХЛА) повезани су црним линијама.

Слика пуне величине

Транскриптови примарних фоликула длаке и кашмира

Коса сисара је високо кератинизирано ткиво које стварају фоликули длаке унутар коже. Постоје две врсте фоликула длаке: примарни фоликул длаке ствара грубу длаку код свих сисара, а секундарни фоликул длаке може произвести кашмир или 'фину косу' код одређених сисара, укључујући козе и антилопе 32 (допунска слика 14) . Карактеризоване својим финим и меким карактеристикама, кашмирово влакно је добивано углавном од козе од кашмира. Упркос 2.500 година историји и огромној производњи сирових кашмира, процењених на око 10.000 тона годишње у Кини, највећем светском произвођачу кашмира 33, мало се зна о молекуларним механизмима формирања и развоја кашмира.

Испитивали смо генетску основу која је била основа развоја кашмичних влакана секвенцирањем транскрипома примарних и секундарних фоликула длаке и мапирањем очитаних података на скуп гена козе и генетиране напомене. РНА је екстрахована из 20–50 секундарних или примарних фоликула длаке казере Унутрашње Монголије, дајући 144–588 нг РНА по узорку, а транскрипти три пара примарних и секундарних узорака фоликула длаке (три биолошке реплике) директно секвенционирани без амплификација, генерисање 20, 3 Гб података о секвенци (допунска табела 18). Већина (∼ 75%) укупних вредности ФПКМ (фрагменти по килограму егзона на милион фрагмената пресликаних) у оба фоликула длаке потичу из протеина гена повезаних са кератином и кератином (допунска табела 19). Преко сва три упарена узорка идентификовали смо 10.077 гена у узорцима примарних фоликула длаке и 7.772 гена у секундарним узорцима фоликула длаке са ФПКМ> 0.1. Од 2.572 гена у узорцима примарних фоликула длаке и 1.947 гена у узорцима секундарних фоликула длаке са ФПКМ> 5, 51 показали су промену у експресији од најмање два пута између сва три пара секундарних и примарних узорака фоликула длаке (допунска табела 20), са 28 регулираних и 23 урегулираних у секундарним насупрот примарним фоликулима.

Кератин и протеини повезани са кератином су главни структурни протеини влакана косе, што одређује квалитет влакана. Две врсте кератина (тип И и тип ИИ) су упарене да формирају обавезне хетерополимер 34, док протеини повезани са кератином могу бити одговорни за формирање круте осовине косе и промену структуре косе и пречника 35 . Укупно смо означили 49 кератинских гена (допунска табела 21) и 30 гена повезаних гена у геному козе (допунска табела 22), од чега је откривено 29 гена кератина и свих 30 гена повезаних са кератином, који су откривени са ФПКМ> 5 у обје врсте фоликула (допунска табела 23). Значајно је да су два од 29 гена за кератин и 10 од протеина гена повезаних са 30 кератина била доследно различито експримирана између примарних и секундарних фоликула длаке у сва три скупа узорака, и сви су они изражени више у секундарним него у примарним фоликулима (допунска табела 24), сугеришући да протеини који су повезани са кератином могу бити важнији у одређивању структуре влакана од кашмира. Два различито експримирана кератинска гена (кератин 40 и 72) била су типа 1, односно типа 2 (допунска слика 15). Протеини повезани са кератином могу се поделити у три главне групе: висок сумпор, ултра високи сумпор и висок глицин-тирозин 36 . Десет различито експримираних протеина који су повезани са кератином били су сви у групи високог сумпора (допунска слика 16), што сугерише да ова група протеина може бити важна за стварање кашмира.

Остали регулирани гени у секундарним фоликулима длаке укључују фактор раста фибробласта 21 (ГОАТ_ЕНСП00000222157), који може промовисати прелазак на катаген 37, и казеин киназу Иɛ (коза_ГЛЕАН_10015556), важан регулатор β-катенина у путу Внт, који је један од најважнији путеви у развоју фоликула длака 38 .

Спуштени гени у секундарним фоликулима косе укључивали су два ензима биосинтезе аминокиселина, аспарагин синтетазу (коза_ГЛЕАН_10019946) и фосфосерин аминотрансферазу (ГОАТ_ЕНСП00000388939), који су кључни ензими у биосинтези аспарагина и серина, сугерирајући да ове амино киселине могу да буду укључене у интензивнији раст косе. . Остали регулисани гени укључују протеин алфа-1 спајања алфа-1 (коза_ГЛЕАН_10013034) и Десмоглеин 1 (ГОАТ_ЕНСБТАП00000018382), за које се извештава да су укључени у комуникацију ћелија фоликула длака и морфогенезу фоликула длаке 38, 39, и изопентенил-дифосфат делта-изомераза ГОТ-0005_005_005_005_005_005_005_005_0050000 (1) (1) ) и протеин 2 који повезује ретиноичну киселину (ГОАТ_ЕНСБТАП00000007515) који су повезани са биосинтезом ретиноичне киселине и могу регулисати раст косе и животни циклус косе путем сигнала Внт 40, 41 . Даљња анализа ових података о експресији створила је додатне хипотезе које се односе на гене и путеве који могу бити основа за производњу влакана од кашмира (Допунска дискусија, Допунска слика 17 и Додатне табеле 25–29).

Дискусија

Кожни геном је, према нашим сазнањима, први велики геном који је секвенциран и састављен де ново користећи технологију мапирања целог гена, демонстрирајући да се овај приступ може користити за добијање веома блиског склопа за велики геном без помоћи традиционалних генетских мапе. Дуге супер скеле пружају довољне информације о групи повезивања за мапирање гена и узгој уз помоћ маркера, а оне су довољно дуго да се усидре на хромозомима користећи грубе информације о колинеарности других сисаваца чији су потпуни геноми доступни. Планирамо да ажурирамо склоп генома козе јер постају доступне мапе хибрида радијације за све хромозоме.

Секвенца генома козе биће корисна за мапирање очитавања добијених ресекционисањем више пасмина коза, што ће олакшати идентификацију СНП маркера за узгој потпомогнут геномским маркерима. Према нашим сазнањима, коза је први мали преживач чији је геном секвенциониран. Геном коза требао би бити користан за разумијевање генских карактеристика које разликују преживаре од неровинских врста. Такође ће бити корисно за побољшање корисности коза као биомедицинског модела и биореактора. Поред тога, гени које смо идентификовали повезани су са производњом влакана од кашмира могу се користити као маркери за узгој бољих коза од кашмира, или могу бити потенцијални мети за генетску или негенетску манипулацију.

Методе

Изолација ДНК / РНК, изградња библиотеке и секвенционирање.

Геномска ДНК је изолована из ткива јетре женске козе Иуннан црне козе стандардним техникама молекуларне биологије. ДНК су одсечени на фрагменте од 180–800 бп, 2 кб, 5 кб, 10 кб и 20 кб да би се генерисале библиотеке ПЕ (видети детаље о додатним методама). Све ове библиотеке ДНК секвенциониране су на Иллумина Геноме Анализер ИИ платформи.

За изградњу фосмидне библиотеке коришћен је висококвалитетни ДНК издвојен из јетреног ткива женске козе Иуннан (види детаље о додатним методама). Фосмидно секвенцирање извршено је овим редоследом: фрагментација и поправак краја, избор величине и пречишћавање, циркуларизација дигестиране линеарне ДНК, инверзни ПЦР и обогаћивање фрагмената ДНК од 400 до 700 бп (видети детаље о додатним методама). Затим је извршено редослед илуминације библиотека за кратке уметке.

РНК је пречишћена помоћу ТРИзол (Инвитроген). Библиотеке секвенцирања РНА конструисане су користећи мРНА-Сек Преп Кит (Иллумина, УСА). Секвенцирали смо библиотеке упареног краја од 200 бп РНА-сек-а употребом модула секвенцирања упареног краја (90 бп на сваком крају) платформе Иллумина ХиСек 2000 (за детаље погледајте Додатне методе).

Конструкција скела.

Скеле генома козе конструисане су помоћу софтвера СОАПденово (издање 1.03, //соап.геномицс.орг.цн/, параметар „-К 41 -д 1 -М 2 -Ф“, за детаље погледајте Додатне методе). Крајњи низови из фосмидне библиотеке коришћени су за ширење скела користећи поступак описан у Додатним методама.

Мапирање са целим геномима (ВГМ) и изградња супер скела.

Користили смо нову ВГМ технологију развијену у систему Аргус Систем и ВГМ софтверског пакета (Геноме-Буилдер) компаније ОпГен да бисмо произвели огромне податке о оптичком мапирању, обрадили ове податке и потпуно аутоматски продужили скеле. Систем интегрише хемију влажне лабораторије, укључујући варење и бојење, у аутоматизовани процес користећи МапЦард и МапЦард Процессор, након чега аутоматски прикупља преко 7000 слика флуоресцентног микроскопа по МапЦард-у од стране Аргус Маппер инструмента. Ефикасна верзија Геноме-Буилдер-а за мале скупове података уграђена је у систем Аргус, али за велике скупове података Геноме-Буилдер мора бити инсталиран на рачунарски сервер.

ДНК високе молекулске тежине из ћелијске линије фибробласта из коже коже женског Иуннан-овог црна пропуштена је кроз уређај за формирање канала (ЦФД) да би усмерио и развукао појединачне молекуле ДНК на позитивно наелектрисану стаклену површину у МапЦард-у, који је имао одвојене коморе за све реагенсе које треба унапред напунити (видети детаље о додатним методама). ДНК је издужен и имобилизиран на површину након што је текао доле кроз микро канале ЦФД-а. Фиксирање ДНК на површину спречило је повраћање, осигуравајући оптималну оријентацију ДНК за снимање слике ЦЦД камером. Имобилисани појединачни молекули ДНК су дигестирани са СпеИ током 10 минута на 37 ° Ц и потом обојени ЈОЈО-1 (Лифе Тецхнологиес) на МапЦард Процессор (МЦП) (допунска слика 4а). МЦП аутоматизује кораке пробаве и обојења узастопних рестрикцијских ензима.

Појединачни молекули ДНК и одговарајући рестрикциони фрагменти снимљени су ласерско осветљеном флуоресцентном микроскопијом користећи Аргус Маппер (видети детаље за додатне детаље). Откривена места резања рестрикцијским ензимом откривена су као празнине у ДНК сликама, а одређена је величина сваког рестрикцијског фрагмента између суседних резаних места (допунска слика 4ц). Маппер анализира слике слике канално, филтрира нелинеарно изобличене фрагменте и мале молекуле, идентификује разлике између фрагмената и мери величину задржаних висококвалитетних фрагмената. За овај пројекат генерисано је 3, 447, 997 макро-молекуларних рестрикција (> 250 кб) са просечном величином од 360 кб. Укупна величина података са једном молекуларном рестрикцијом била је око 1, 241 Гб.

Супер скеле са ВГМ подацима.

Супер скеле са ВГМ подацима изведене су коришћењем софтвера Геноме-Буилдер недавно развијеног у ОпГен-у. Овај софтверски пакет примењује хибридни приступ за извођење скела дугог домета де нова секвенце. Укратко, користи мапе са једним молекулима генерисане у Аргусу за проширење скеле секвенце, стварање преклапајућих подручја између суседних скела и повезивање скела на основу парних подешавања између њих. Скеле улазних секвенци засноване су на де ново склопу и прво су претворене у мапе рестрикције помоћу варења силиконским рестрикцијским ензимом. Добијене силиконске карте коришћене су као почетне мапе семена за итеративни процес проширења. Појединости алгоритма даље су описане у Додатној слици 4 и Додатним методама.

Супер скеле су процењене помоћу ЦЕГМА 17 и ЕСТ преузетих са НЦБИ (13, 849 записа) и де ново састављених ЕСТ-ова из РНА-сек очитавања десет ткива (99, 707 записа, за детаље видети Додатне методе).

Монтажа и процена псеудохромосома.

Скуп од 108.850 изворних секвенци за СНП сонде из ОвинеСНП50 БеадЦхип и БовинеСНП50 БеадЦхип је упоређен ради сличности са козјим супер скелама / скелама и геномом говеда (УМД 3.1) са БЛАСТН-ом да би се пронашли супер скеле и друге скеле неотворене у скелама мапирање целог генома у 30 псеудохромосома (видети детаље о додатним методама). Подаци ВГМ-а су затим коришћени за двоструку проверу редоследа усидрених супер скела или скела. Дислокације потврђене нашим експерименталним подацима о ВГМ били су кандидати истинских разлика у поравнавању узрокованим неколинарношћу између коза и говеда. Датотеке скела, супер скела и одговарајуће датотеке .агп упутства доступне су на //гоат.киз.ац.цн/ГГД/.

Да бисмо проценили хромозомски склоп генома козе, упоредили смо псеудо-хромосом 1 са две радијационе хибридне мапе козјег хромозома 1 које смо генерисали за мушког боер козу. Генотирали смо 1.222 маркера СНП на Иллумина БовинеСНП50 БеадЦхип и 1.567 произвођача СНП-а на Иллумина ОвинеСНП50 БеадЦхип који су могли бити представљени у геному козе преко хибридног панела од 5000 радијских коза-хрчака који садржи 93 ћелијске линије Боер-ове козе. Такође смо спровели поређење хромозома заснованих на синтети за све хромозоме између скупа ЦХИР_1.0 козе и оба склопа Бтау_4.0 и УМД3.1 говеда (видети детаље о додатним методама).

Биљешке и анализе генома.

Биљешке о геномима укључују означавање понављајућих елемената (преносиви елементи), гена који кодирају протеине, гене који не кодирају протеине и породице гена. На основу назнака генома, анализе генома усредсређене су на гене под позитивном селекцијом и еволуцијом породице. Овде су наведене кратке методе, а детаљи су у потпуности описани у Додатним методама.

Понављања тандема у склопу генома идентификована су коришћењем Тандем Репеат Финдер 42 . Неинтерзирана понављања у геному откривена су употребом РепеатМаскер 43 . Транспојирајући елементи у склопу генома идентификовани су на нивоу ДНК и протеина. На нивоу ДНК, РепеатМоделер (//ввв.репеатмаскер.орг/РепеатМоделер.хтмл) и ЛТР_ФИНДЕР 44 софтвер коришћени су за изградњу нових нових библиотека. РепеатМаскер (верзија 3.2.9) покренут је одвојено против нове библиотеке и репбасе 45 како би идентификовао хомологна понављања, која су класификована у познате класе понављања 46 . На нивоу протеина, РМ-БЛАСТКС у оквиру програма РепеатПротеинМаск у програму РепеатМаскер коришћен је против базе података протеина преносивих елемената.

Да би се предвидјели гени који кодирају протеине, информације су интегрисане из три различите методе, предвиђања аб инитио , напомена заснована на хомологији и напомена на бази РНА-сек- / ЕСТ- / цДНА. Подаци РНА-сек-а коришћени су за продужење секвенце гена, нарочито 5 'УТР-а код којих висок садржај ГЦ обично омета секвенцирање Иллунима.

ИнтерПроСцан 47 (верзија 4.5) коришћен је за преглед козјих протеина против пет база података (Пфам 48, издање 24.0; ПРИНТ 49, издање 40.0; ПРОСИТЕ 50, издање 20.52; ПроДом 51, 2006.1; МАРТ, издање 6.0). Претражене су базе података КЕГГ 52, 53 (издање 58), Унипрот / СвиссПрот 54 (издање 2011.6) и база података УниПрот / ТрЕМБЛ 55 (издање 2011.6) за хомологне функције (ГО додељивања).

Софтвер тРНАсцан-СЕ 56 (верзија 1.23) са подразумеваним параметрима за еукариоте коришћен је за белешке тРНА. Напомена о рРНА заснована је на информацијама о хомологији хуманих рРНА колекција користећи БЛАСТН (верзија 2.2.21). МиРНА и мали нуклеарни РНА гени предвидјели су софтвером ИНФЕРНАЛ 57 према Рфам бази 58 .

Методологија Треефам 59 коришћена је за дефинисање породице гена као групе гена који потичу из једног гена у заједничком претку козе, стоке, коња, пса, миша, пацова, опоссума, чимпанзе и човека ( Енсембл издање 56).

Гени са једном копијом дефинисани као ортолошки гени Треефам цевоводима изабрани су за филогенетску анализу са МрБаиес софтвером 60 . За процјену времена дивергенције врста кориштењем програма МЦМЦТРЕЕ (верзија 4), који је био дио ПАМЛ пакета 61, коришћен је Баиесиан Релакед Молецулар Цлоцк (БРМЦ). Као време калибрације коришћено је време одступања људи и паса из ТимеТрее базе података (//ввв.тиметрее.орг/).

ЦАФЕ (рачунарска анализа еволуције породице гена, верзија 2.1) 62 коришћена је за откривање ширења и контракције породице гена код људи, паса, коња, говеда и коза. Ка / Кс односи су израчунати за 14 906 ортолошких парова код коза, говеда и човека коришћењем софтвера КаКс_ Цалцулатор 63 и позитивна селекција је даље испитана код ових пари гена.

Поређење између примарног фоликула длаке и секундарних транскрипата фоликула длаке.

Након филтрирања артефаката нискоквалитетних / контаминираних / ПЦР очитава се, очитавање из РНА-сек података података примарних фоликула длаке (ПХФ) и секундарних узорака упарених у фоликула (СХФ) мапирају се у скупину коза користећи Топхат 64 . Цуффдифф (//цуффлинкс.цбцб.умд.еду) је израчунао вредност ФПКМ за сваки ген који кодира протеин. Ниво значајности ( П- вредност) диференцијално експримираних гена између два узорка израчунат је Цуффдиффом користећи задате параметре. ФПКМ> 5 је кориштен као строго пресечење за идентификацију експримираних гена, респективно. Диференцијално експримирани гени су они који имају најмање двоструку промену ФПКМ између узорака ПХФ и СХФ у све три поређења ПХФ / СХФ.

Приступни код.

Пројект сачмарице са целим геномом коза, ДДБЈ / ЕМБЛ / ГенБанк: АЈПТ00000000. Кратко читање ДНК-а, СРА: СРА051557. РНА секвенце кратких читања, ГЕО: ГСЕ37456. Будући да још увек не постоји банка података за складиштење података о оптичком мапирању, подаци за целокупно геномирање података коза могу се добити од //гоат.киз.ац.цн/ГГД/. Подаци хибридне карте радијације хромозома 1 доступни су и на //гоат.киз.ац.цн/ГГД/.

Приступања

Примарни приступи

Омнибус генетске експресије

  • ГСЕ37456

НЦБИ референтна секвенца

  • АЈПТ00000000

Секвенца Архива читања

  • СРА051557

Додатне информације

ПДФ датотеке

  1. 1.

    Допунски текст и слике

    Допунска дискусија, Допунске методе, Допунске табеле 1–18, 20–29 и Допунске слике 1–17

Екцел датотеке

  1. 1.

    Допунска табела 19

    Профил експресије гена у ПХФ и СХФ (без филтера)