海洋与湖沼  2022, Vol. 53 Issue (1): 120-132   PDF    
http://dx.doi.org/10.11693/hyhz20210700160
中国海洋湖沼学会主办。
0

文章信息

王开杰, 徐永江, 崔爱君, 柳学周, 姜燕, 王滨. 2022.
WANG Kai-Jie, XU Yong-Jiang, CUI Ai-Jun, LIU Xue-Zhou, JIANG Yan, WANG Bin. 2022.
高体()(Seriola dumerili)线粒体全基因组测定及结构特征分析
COMPLETE SEQUENCE AND GENE ORGANIZATION OF THE MITOCHONDRIAL GENOME OF SERIOLA DUMERILI
海洋与湖沼, 53(1): 120-132
Oceanologia et Limnologia Sinica, 53(1): 120-132.
http://dx.doi.org/10.11693/hyhz20210700160

文章历史

收稿日期:2021-07-09
收修改稿日期:2021-08-27
高体()(Seriola dumerili)线粒体全基因组测定及结构特征分析
王开杰1,2,3, 徐永江1,2, 崔爱君1,2, 柳学周1,2, 姜燕1,2, 王滨1,2     
1. 中国水产科学研究院黄海水产研究所 山东青岛 266071;
2. 青岛海洋科学与技术试点国家实验室海洋渔业科学与食物产出过程功能实验室 山东青岛 266237;
3. 浙江海洋大学国家海洋设施养殖工程技术研究中心 浙江舟山 316022
摘要:为快速有效鉴别()属鱼类物种、加强()鱼遗传多样性管理与种质资源保护,通过Illumina测序技术,获得了东海海域养殖高体()(Seriola dumerili)线粒体基因组全序列(16 530 bp),碱基组成为A(26.83%)、G(17.6%)、C(30.04%)和T(25.53%),A+T含量为52.36%,且非编码控制区(D-loop)A+T富含61.64%,表现明显的AT偏好性。与其他硬骨鱼一样,高体()线粒体基因组包含13条蛋白编码基因,22个tRNA基因,2个rRNA基因,除ND6、tRNAGlntRNAAlatRNAAsntRNACystRNATyrtRNASertRNAGlutRNAPro基因外,其余均位于H链编码;蛋白编码基因中,除COⅠ、COⅡ和ND5的起始密码子分别为ATC、ATA和ATA外,其余10个蛋白编码基因的起始密码子均为ATG,以典型的TAA和TAG为终止密码子,在ND4和Cytb中存在不完全密码子T;除tRNASer-GCT外,其余21个tRNA均为典型三叶草二级结构。比较中国和日本海域高体()线粒体基因组发现,CO I、CO II和ND5蛋白编码基因在起止位置、片段长度及起止密码子上存在显著差异。此外,与同属的黄条()(Seriola aureovittata)和五条()(Seriola quinqueradiata)的线粒体基因组13个蛋白编码基因进行两两对比分析,结果表明3种()属鱼类的蛋白编码基因的相似性在85%~100%之间。基于线粒体基因组全序列构建的系统发育树,成功将高体()与其他()属鱼类有效区分,高体()与长鳍()同属一支,亲缘关系最近;黄条()和五条()聚为一支,亲缘关系最近。
关键词高体()    线粒体基因组    序列比较分析    系统发育分析    
COMPLETE SEQUENCE AND GENE ORGANIZATION OF THE MITOCHONDRIAL GENOME OF SERIOLA DUMERILI
WANG Kai-Jie1,2,3, XU Yong-Jiang1,2, CUI Ai-Jun1,2, LIU Xue-Zhou1,2, JIANG Yan1,2, WANG Bin1,2     
1. Yellow Sea Fisheries Research Institute, Chinese Academy of Fishery Sciences, Qingdao 266071, China;
2. Laboratory for Marine Fisheries Science and Food Production Processes, Pilot National Laboratory for Marine Science and Technology (Qingdao), Qingdao 266237, China;
3. National Engineering Research Center For Marine Aquaculture, Zhejiang Ocean University, Zhoushan 316022, China
Abstract: To identify the species of Seriola and strengthen the management of genetic diversity and protection of germplasm resources of the Seriola, the complete mitochondrial genome sequence of Seriola dumerili cultured in the East China Sea was successfully obtained by second-generation sequencing and bioinformatic analysis. The total length of the mitochondrial genome sequence was 16 530 bp with typical mtDNA components including 13 proteins and 22 tRNAs, 2 rRNAs and a D-Loop region, in which the A content was 26.83%, G was17.6%, C was 30.04% and T was 25.53%. Except for ND6, tRNAGln, tRNAAla, tRNAAsn, tRNACys, tRNATyr, tRNASer, tRNAGlu, and tRNAPro, all the other genes were encoded on the H-strand. The A+T content of the complete mitochondrial genome sequence and the protein coding gene were 52.36% and 51.72%, respectively. Among the 22 tRNA genes, except for tRNAser-GCT, the other 21 tRNA genes contained typical secondary structure of clover. The results show that the similarity of 13 protein coding genes in the whole mitochondrial genome of the three species was over 85% to 100%. The genes encoding CO I, CO II, and ND5 showed difference at the start point, length, and starting codon between Chinese and Japanese S. dumerili. Furthermore, the phylogenetic tree was constructed with the complete mitochondrial genome sequences of four species from Seriola genus. The phylogenetic tree showed that S. aureovittata and S. quinqueradiata were clustered in one branch, and the phylogenetic tree of S. dumerili and S. rivoliana belonged to the same proximal branch. The phylogenetic relationship between S. aureovittata and S. quinqueradiata, and between S. dumerili and S. rivoliana are the closest.
Key words: Seriola dumerili    mitochondrial genome    sequence analysis    phylogenetic tree    

线粒体DNA (Mitochondria DNA)具有结构简单、高拷贝数, 分子量小、偏母性遗传且进化速度快等优点(Curole et al, 1999)。鱼类线粒体DNA大小一般为15~20 kb, 多为双链闭合的环状结构, 排列紧密, 不同物种间线粒体基因组存在很大差异, 序列中存在串联重复序列以及少数的散在重复序列(周传江等, 2019), 与其他高等动物相似, 鱼类线粒体基因组也是由13个蛋白质编码基因, 2个rRNA, 22个tRNA, 以及非编码区重链复制起始相关的控制区(D-loop)和轻链复制起始区(OL)组成(Satoh et al, 2016)。随着DNA测序技术的逐渐成熟, 鱼类线粒体基因组已被作为分子标记广泛应用于鱼类种质资源保护, 群体多态性以及系统进化发育等领域(陈四海等, 2011)。黄小林等(2018)探讨了线粒体基因组在6种篮子鱼(Siganus)系统发育中的适用性; 程佩琳等(2021)通过线粒体全基因组对6种鲟形目鱼类(Acipenseriformes)进行了种群划分; Bernal-Ramírez等(2003)利用线粒体基因组控制区分析了新西兰金赤鲷(Pagrus auratus)群体遗传结构的稳定性。

高体 (Seriola dumerili)属鲈形目(Perciformes)、鲈亚目(Percoidei)、鲹科(Carangidae)、属(Seriola), 又名杜氏、红甘鲹(陈大刚等, 2015)。高体是暖水性中上层鱼类, 体侧从吻端到尾鳍有一金黄色纵带, 具有生长速度快、体型大、肉质鲜美等特点, 深受广大消费者的喜爱(廖志强, 2003)。高体分布于全球的亚热带地区, 在中国主要分布于东海和南海。在形态上, 属鱼类种间体色和条纹相似, 基于传统的外部形态特征来准确鉴定物种具有一定难度, 特别是受精卵和苗种在形态上更难区分, 给渔业资源调查物种及种群判别等带来了较大困难。Nugroho等(2000)通过微卫星DNA和D-Loop分子标记发现日本高体在遗传上至少分为两个不同的群体; Premachandra等(2017)通过微卫星标记、基因组测序及线粒体DNA等方法认为太平洋海域黄条由于地理隔离分离出的三个群体间不存在基因流动; Iguchi等(2012)基于线粒体基因组结构特征, 探讨了日本海域的高体、黄条、五条和长鳍四种属鱼类的种间系统进化关系。我国尚未有髙体遗传特性方面的研究报道。

本研究测定了东海海域养殖高体的线粒体全基因组序列, 通过与日本海域高体及其他两种属鱼类(黄条、五条)线粒体基因组特征进行比较, 分析三者之间的遗传差异; 通过构建分子系统发育树, 探讨了高体与其他属鱼类的亲缘关系, 为属鱼类的种质鉴定和系统进化提供依据。

1 材料与方法 1.1 实验材料及DNA提取

试验髙体样品采集于福建宁德(26°62′N, 119°75′E)海上养殖网箱, 经MS-222麻醉后, 对其进行体质量及形态学性状测量, 用无菌解剖剪剪取一部分胸鳍, 放入无水乙醇中保存。取胸鳍组织100 mg, 按照DNA提取试剂盒(OMEGA, USA)使用说明书的操作步骤提取基因组DNA。通过琼脂糖凝胶电泳和核酸蛋白测定仪对其DNA纯度和浓度进行测定。

1.2 基因组测序

委托青岛欧易生物科技有限公司进行测序, 流程如下: 将提取的DNA样品参照TruSeqTM Nano DNA Sample Prep Kit试剂盒方法构建文库, 采用Covaris M220超声波破碎仪分割成长度为300~500 bp左右的片段并在两端加接头, 进行桥式PCR扩增, 采用Illumina NovaSeq 6000测序技术对样品DNA进行paired-end测序。

1.3 序列组装与分析

使用SPAdes v3.14.1 (http://bioinf.spbau.ru/spades)软件对Clean Data进行校对、排列、拼接后获得高体的线粒体基因组序列。通过Trimmomatic v0.39 (http://www.usadellab.org/cms/index.php?page=trimmomati)软件对其修剪后, 使用MITOS (http://mitos.bioinf.uni-leipzig.de/index.py) 软件对线粒体基因组预测编码蛋白、tRNA和rRNA基因, 然后对MITOS预测的初始基因去冗余, 并人工校正基因的起始、终止密码子位置, 获得高准确性的保守基因集。利用tRNA scan-SE在线软件(http://www.Genetics.Wustl.Edu./eddy/tRNAscan-SE)进行tRNA定位与RNAstructure预测, 利用软件CGView (http://stothard.afns.ualberta.ca/cgview_server/)对样品基因组进行圈图展示, 最后将蛋白编码基因通过Blast比对, 进行NR、Swiss-Prot、eggNOG、KEGG、GO注释分析。

通过MEGA 7.0软件对高体碱基组成、密码子偏好性及系统进化分析。以日本花鲈(Lateolabrax japonicus)为外类群, 从GenBank数据库中下载18种鲹科鱼类线粒体全基因组序列见表 1, 通过Clustal W进行序列多重比对, 自举检验1 000次, 构建Neighbor-joining进化树,

表 1 鲹科鱼类线粒体基因组数据来源 Tab. 1 The origins of mitochondrial genomes of Carangidae fishes
物种名 拉丁文 GenBank登录号 总长/bp
拉巴若鲹 Carangoides malabaricus KJ174514 16 561
甲若鲹 Carangoides armatus AP004444 16 556
游鳍叶鲹 Atule mate KM522838 16 565
丽叶鲹 Alepes kleinii KF728081 16 571
大甲鲹 Megalaspis cordyl KM522836 16 566
金带细鲹 Selaroides leptolepis KM522839 16 560
乌鲹 Parastromateus niger KJ192332 16 561
高体若鲹 Carangoides equula KM201334 16 588
竹荚鱼 Trachurus trachurus AB108498 16 559
白舌尾甲鲹 Uraspis secunda KT819204 16 554
长身圆鲹 Decapterus macrosoma KF841444 16 545
脂眼凹肩鲹 Selar crumenophthalmus KJ148633 16 610
小甘鲹 Seriolina nigrofasciata KT591876 16 531
日本黄条 Seriola lalandi AB517557 16 532
中国黄条 Seriola aureovittata MH211123 16 609
五条 Seriola quinqueradiata AB517556 16 537
日本高体 Seriola dumerili AB517558 16 530
长鳍 Seriola rivoliana KP347126 16 530
纺缍鲹 Elagatis bipinnulata KT824759 16 542
日本花鲈 Lateolabrax japonicus AP006789 16 593
2 结果与分析 2.1 线粒体基因组结构特征

本研究获得的髙体线粒体全基因组序列经注释后提交GenBank (Accession No.: MZ398238)。高体线粒体全基因组序列为典型的环状结构, 全长16 530 bp, 碱基组成为A (26.83%)、G (17.6%)、C (30.04%)和T (25.53%); A+T含量为52.36%, 显著大于G+C含量(47.64%), 表现明显的AT偏好性。与其他鱼类线粒体DNA结构一致, 共37个基因: 包括13个蛋白质编码基因(COI-III、ATP6、ATP8、NDl-6、ND4LCytb), 22个tRNA基因, 2个rRNA基因和一个控制区(D-loop区)。

2.2 高体线粒体基因组rRNA、tRNA及D-loop区结构分析

高体线粒体基因组含有12S rRNA16S rRNA两个rRNA, 12S rRNA位于tRNAPhetRNAVal之间, 由950个碱基组成; 16S rRNA位于tRNAValtRNALeu之间, 由1 700个碱基组成, 且12S rRNA16S rRNA更加保守。

图 1 高体线粒体基因组图谱 Fig. 1 Gene map of the mitochondrial genome of S. dumerili

表 2 高体线粒体基因组结构特征 Tab. 2 Characteristics of the mitogenomes of S. dumerili
基因名称 起止位置 长度/bp 编码链 间隔长度 起始密码子 终止密码子
tRNAPhe 1~68 68 H
12S rRNA 69~1 018 950 H 0
tRNAVal 1 019~1 090 72 H 0
16S rRNA 1 109~2 808 1 700 H 18
tRNALeu 2 809~2 883 75 H 0
ND1 2 884~3 858 975 H 0 ATG TAA
tRNAIle 3 863~3 932 70 H 4
tRNAGln 3 932~4 002 71 L –1
tRNAMet 4 002~4 070 69 H –1
ND2 4 071~5 117 1 047 H 0 ATG TAA
tRNATrp 5 117~5 187 71 H –1
tRNAAla 5 189~5 257 69 L 1
tRNAAsn 5 259~5 331 73 L 1
tRNACys 5 366~5 431 66 L 34
tRNATyr 5 432~5 501 70 L 0
CO I 5 509~7 053 1 545 H 7 ATC TAA
tRNASer 7 054~7 124 71 L 0
tRNAAsp 7 129~7 199 71 H 4
CO II 7 205~7 912 708 H 5 ATA TAA
tRNALys 7 899~7 973 75 H –14
ATP8 7 975~8 142 168 H 1 ATG TAA
ATP6 8 133~8 816 684 H –10 ATG TAA
CO III 8 816~9 601 786 H –1 ATG TAA
tRNAGly 9 601~9 671 71 H –1
ND3 9 672~10 022 351 H 0 ATG TAG
tRNAArg 10 021~10 089 69 H –2
ND4L 10 090~10 386 297 H 0 ATG TAA
ND4 10 380~11 760 1 381 H –7 ATG T—
tRNAHis 11 761~11 829 69 H 0
tRNASer 11 830~11 896 67 H 0
tRNALeu 11 901~11 973 73 H 4
ND5 11 992~13 812 1 821 H 18 ATA TAA
ND6 13 809~14 330 522 L –4 ATG TAG
tRNAGlu 14 332~14 400 69 L 1
Cytb 14 406~15 546 1 141 H 5 ATG T--
tRNAThr 15 547~15 618 72 H 0
tRNAPro 15 618~15 688 71 L –1
D-loop 15 689~16 530 842 H 0

22个tRNA的序列总长度为1 552 bp, 长度范围为66~75 bp, 长度最短的为tRNACys, 最长的为tRNALeutRNALys。其中tRNASertRNALeu基因各有两个, 除tRNAGlntRNAAlatRNAAsntRNACystRNATyrtRNASertRNAGlutRNAPro位于L链外, 其余14个tRNA皆位于H链上。22个tRNA结构均可通过tRNAscan-SE在线预测, 除tRNASer-GCT基因缺失二氢尿嘧啶臂(DHU臂)外, 其余21个tRNA均含有典型的三叶草二级结构(图 2)。

图 2 高体线粒体tRNA二级结构 Fig. 2 Secondary structure of S. dumerili mitochondrial tRNA

在氨基酸臂中由于C-T转换造成的tRNAValtRNAIletRNAHis中A-C不配对, 还导致tRNAGlntRNAAlatRNATyrtRNAPro基因中G-T发生错配。且在氨基酸臂中tRNASer-GCT存在1对A-A不配对, tRNAPhetRNALeutRNAThr存在1对C-C不配对, tRNAArg存在2对T-T不配对。在反密码子茎中也存在由于C-T转换造成的tRNATrp中A-C不配对。在TΨC茎上, 同样也存在C-T转换现象, 除此之外, tRNAMet有1对U-U不配对。DHU环也存在G-T错配现象, tRNATrp有1对A-A不配对, 且tRNASer-GCT基因该环缺失。

高体控制区(D-loop)位于tRNAProtRNAPhe基因之间, 全长为842 bp。利用Tandem repeat finder软件搜索, 未发现串联重复序列。其碱基含量为(T 31.24%, C 21.97%, A 30.40%, G 16.39%), 该区域A+T富含61.64%; 黄条和五条的A+T含量分别为63.65%和62.13%, 均表现明显的A+T偏好性和抗鸟嘌呤现象。

2.3 高体蛋白编码基因密码子偏好性分析

本研究对高体13个蛋白编码基因密码子的使用频率及相对同义密码子使用度(RSCU)进行了统计分析(表 3), 共编码3 808个密码子, 表中加粗字体为同种氨基酸密码子使用度最多的, 除UGC、UGG和AGA外, 其RSCU均大于1, 均为偏好性密码子。其中, 以NNC类型的密码子占总密码子数的38.08%, 除UGC (0.99)外, 其余NNC类型的密码子RSCU均大于1, 表明密码子第三位点为C的使用频率较高。

表 3 高体13个蛋白编码基因密码子偏好性统计 Tab. 3 Codon preference statistics of 13 protein-coding genes of S. dumerili
密码子 出现次数 RSCU 密码子 出现次数 RSCU 密码子 出现次数 RSCU 密码子 出现次数 RSCU
UUU(F) 88 0.8 UCU(S) 32 0.7 UAU(Y) 29 0.55 UGU(C) 7 0.4
UUC(F) 154 1.2 UCC(S) 73 2.21 UAC(Y) 81 1.3 UGC(C) 17 0.99
UUA(L) 79 0.77 UCA(S) 50 1.11 UAA(*) 9 0.47 UGA(*) 100 2.44
UUG(L) 25 0.28 UCG(S) 25 0.62 UAG(*) 2 0.08 UGG(W) 20 0.85
CUU(L) 148 1.41 CCU(P) 59 1.3 CAU(H) 25 0.72 CGU(R) 8 0.55
CUC(L) 174 1.51 CCC(P) 103 1.62 CAC(H) 82 1.28 CGC(R) 13 1.13
CUA(L) 169 1.32 CCA(P) 43 0.78 CAA(Q) 77 1.55 CGA(R) 46 3.01
CUG(L) 65 0.72 CCG(P) 19 0.3 CAG(Q) 17 0.3 CGG(R) 12 0.79
AUU(I) 127 1.11 ACU(T) 53 0.91 AAU(N) 28 0.59 AGU(S) 9 0.22
AUC(I) 124 1.1 ACC(T) 105 1.27 AAC(N) 90 1.41 AGC(S) 43 1.15
AUA(I) 77 0.79 ACA(T) 115 1.39 AAA(K) 61 1.28 AGA(R) 1 0.07
AUG(M) 75 1 ACG(T) 23 0.43 AAG(K) 15 0.41 AGG(R) 0 0
GUU(V) 69 1.18 GCU(A) 62 0.71 GAU(D) 17 0.59 GGU(G) 34 0.5
GUC(V) 83 1.45 GCC(A) 166 1.79 GAC(D) 62 1.26 GGC(G) 80 1.16
GUA(V) 56 0.94 GCA(A) 115 1.3 GAA(E) 71 1.46 GGA(G) 73 1.09
GUG(V) 25 0.44 GCG(A) 17 0.21 GAG(E) 29 0.54 GGG(G) 52 1.05
注: *表示终止密码子; 括号内的字母表示各氨基酸名称的缩写; 表中加粗字体为氨基酸偏好密码子
2.4 中国海域高体与日本海域高体蛋白编码基因差异

本研究发现东海海域与日本海域高体在线粒体基因组序列中长度一致, 均为16 530 bp, 比较分析了两者在蛋白编码基因上的差异(表 4)。除CO I、CO II和ND5蛋白基因在起止位置、片段长度以及起止密码子选择上存在差异外, 两者在其他11个蛋白编码基因中表现出很高的相似性。中国海域高体 CO I蛋白基因长度比日本海域高体 CO I蛋白基因短6 bp, 起始密码子分别为ATG和GTG; CO II蛋白编码基因长度比日本高体长17 bp, 起始密码子分别为ATA和ATG; ND5蛋白编码基因长度比日本海域高体 ND5蛋白基因短18 bp, 起始密码子分别为ATA和ATG。中国海域高体 CO II蛋白终止密码子为完全的“TAA”, 而日本海域高体CO II蛋白的终止密码子为不完全的“T”。

表 4 中国海域高体与日本海域高体蛋白编码基因对比 Tab. 4 Protein coding gene comparisons between S. dumerili populations from China and Japan
基因 中国海域高体 日本海域高体
起止位置(bp) 长度(bp) 起始密码 终止密码 起止位置(bp) 长度(bp) 起始密码 终止密码
ND1 2 884~3 858 975 ATG TAA 2 884~3 858 975 ATG TAA
ND2 4 071~5 117 1 047 ATG TAA 4 071~5 117 1 047 ATG TAA
CO I 5 509~7 053 1 545 ATC TAA 5 503~7 053 1 551 GTG TAA
CO II 7 205~7 912 708 ATA TAA 7 208~7 898 691 ATG T--
ATP8 7 975~8 142 168 ATG TAA 7 975~8 142 168 ATG TAA
ATP6 8 133~8 816 684 ATG TAA 8 133~8 816 684 ATG TAA
CO III 8 816~9 601 786 ATG TAA 8 816~9 601 786 ATG TAA
ND3 9 672~10 022 351 ATG TAG 9 672~10 022 351 ATG TAG
ND4L 10 090~10 386 297 ATG TAA 10 090~10 386 297 ATG TAA
ND4 10 380~11 760 1 381 ATG T-- 10 380~11 760 1 381 ATG T--
ND5 11 992~13 812 1 821 ATA TAA 11 974~13 812 1 839 ATG TAA
ND6 13 809~14 330 522 ATG TAG 13 809~14 330 522 ATG TAG
Cytb 14 406~15 546 1 141 ATG T-- 14 406~15 546 1 141 ATG T--
2.5 三种鱼线粒体基因组比较分析

比较分析了三种属鱼类的线粒体基因组全序列(表 5), 长度分别为: 黄条 (16 609 bp)、高体 (16 530 bp)、五条 (16 537 bp)。其基因排列顺序与其他大多数鱼类线粒体基因组一致, 均包括13个蛋白质编码基因、22个tRNA基因、2个rRNA基因及非编码区的轻链复制起始区(OL)以及控制区(D-loop)。其中tRNAGlntRNAProtRNAAlatRNAGlutRNACystRNAAsntRNATyrtRNASer(UCN)八个tRNA基因与ND6共9个基因由L链编码, 其余28个基因则是由H链编码。黄条、高体和五条线粒体基因组序列的A+T含量分别为52.05%、52.36%、51.8%, 平均A+T含量52.07%, 明显高于G+C含量, 表现出明显的A+T偏好性。13个蛋白编码基因中, 同一编码基因的起止位点上有差异, 基于CO I基因多以GTG为起始密码子, 而黄条和高体分别以ATG和ATC为起始密码子; 基于CO II基因, 高体以ATA为起始密码子, 而黄条和五条以ATG; 基于ND5基因, 黄条和高体以ATA为起始密码子, 而五条以ATG, 其余10个编码基因均以ATG为起始密码子。其中高体 CO II基因的终止密码子为完全的“TAA”, 黄条和五条 CO II基因的终止密码子为不完全的“T”。

表 5 三种鱼线粒体基因组结构特点 Tab. 5 Characteristics of the mitogenomes of three Seriola species
基因 黄条 高体 五条 密码子
起始 终止 长度/bp 起始 终止 长度/bp 起始 终止 长度/bp 起始 终止
tRNAPhe 1 68 68 1 68 68 1 68 68
12S rRNA 69 1 019 951 69 1 018 950 69 1 023 955
tRNAVal 1 020 1 092 72 1 019 1 090 72 1 024 1 095 72
16S rRNA 1 110 2 808 1 699 1 109 2 808 1 700 1 096 2 813 1 718
tRNALeu(UUR) 2 809 2 883 75 2 809 2 883 75 2 814 2 888 75
ND1 2 884 3 858 975 2 884 3 858 975 2 889 3 863 975 ATG TAA
tRNAIle 3 863 3 932 70 3 863 3 932 70 3 868 3 937 70
tRNAGln(L) 3 932 4 002 71 3 932 4 002 71 3 937 4 007 71
tRNAMet 4 002 4 070 69 4 002 4 070 69 4 007 4 075 69
ND2 4 071 5 117 1 047 4 071 5 117 1 047 4 076 5 122 1 047 ATG TAA
tRNATrp 5 117 5 187 71 5 117 5 187 71 5 122 5 192 71
tRNAAla(L) 5 189 5 257 69 5 189 5 257 69 5 194 5 262 69
tRNAAsn(L) 5 259 5 331 73 5 259 5 331 73 5 264 5 336 73
O L 5 332 5 365 33 5 332 5 365 33 5 337 5 370 34
tRNACys(L) 5 366 5 431 66 5 366 5 431 66 5 371 5 436 66
tRNATyr(L) 5 432 5 501 70 5 432 5 501 70 5 437 5 506 70
CO I 5 584 7 053 1 470 5 509 7 053 1 545 5 508 7 058 1 551 ATG/ATC/GTG TAA
tRNASer (UCN)(L) 7 054 7 124 71 7 054 7 124 71 7 059 7 129 71
tRNAAsp 7 129 7 199 71 7 129 7 199 71 7 134 7 204 71
CO II 7 208 7 898 691 7 205 7 912 708 7 213 7 903 691 ATG/ATA/ATG T/TAA/T
tRNALys 7 899 7 973 75 7 899 7 973 75 7 904 7 978 75
ATP8 7 975 8 142 168 7 975 8 142 168 7 980 8 147 168 ATG TAA
ATP6 8 133 8 816 684 8 133 8 816 684 8 138 8 821 684 TAA
CO III 8 816 9 601 786 8 816 9 601 786 8 821 9 606 786 ATG TAA
tRNAGly 9 601 9 671 71 9 601 9 671 71 9 606 9 676 71
ND3 9 672 10 022 351 9 672 10 022 351 9 677 10 027 351 ATG TAG
tRNAArg 10 021 10 089 69 10 021 10 089 69 10 026 10 094 69
ND4L 10 090 10 386 297 10 090 10 386 297 10 095 10 391 297 ATG TAA
ND4 10 380 11 760 1 381 10 380 11 760 1 381 10 385 11 765 1 381 ATG T
tRNAHis 11 761 11 829 69 11 761 11 829 69 11 766 11 834 69
tRNASer(AGY) 11 830 11 896 67 11 830 11 896 67 11 835 11 901 67
tRNALeu(CUN) 11 901 11 973 73 11 901 11 973 73 11 906 11 978 73
ND5 11 992 13 812 1 821 11 992 13 812 1 821 11 979 13 817 1 839 ATA/ATA/ATG TAA
ND6 (L) 13 809 14 330 522 13 809 14 330 522 13 814 14 335 522 ATG TAG
tRNAGlu(L) 14 332 14 400 69 14 332 14 400 69 14 337 14 405 69
Cytb 14 405 15 545 1 141 14 406 15 546 1 141 14 410 15 550 1 141 ATG T
tRNAThr 15 546 15 617 72 15 547 15 618 72 15 551 15 622 72
tRNAPro(L) 15 617 15 687 71 15 618 15 688 71 15 622 15 692 71
Control region 15 689 16 609 921 15 689 16 530 842 15 693 16 537 845
2.6 三种属鱼类蛋白编码基因碱基组成及相似性分析

三种属鱼类的蛋白编码基因的长度分别为: 黄条 (11 838 bp)、高体 (11 426 bp)、五条 (11 433 bp), 分别占全序列总长度的71.3%、69.12%、69.14%。且相邻蛋白编码基因中存在1~10 bp的碱基重叠区域。在CO ICO II、CO III、ATP6、ATP8和ND5基因中, 三种属鱼类A+T含量均高于50% (表 6), CO II基因中A+T平均含量最高(56.74%)。13个蛋白编码基因的A+T总含量分别为黄条 (51.09%)、高体(51.72%)、五条 (52.04), 可见其在蛋白编码基因组中也具有AT偏好性。除了ND6基因外, 三种属鱼类其他蛋白编码基因的G含量都在20%以下, 表现明显的反G现象。

表 6 三种鱼蛋白编码基因碱基组成 Tab. 6 Nucleotide composition of protein-coding genes in three Seriola species
种类 碱基 ND1 ND2 CO I CO II ATP8 ATP6 CO III ND3 ND4L ND4 ND5 ND6 Cytb
A+T 48.10 48.62 52.24 57.16 52.98 52.63 50.89 50.14 48.82 50.62 52.39 49.43 49.78
黄条 T 26.36 24.83 28.30 28.08 23.81 27.63 26.97 29.63 30.64 24.55 26.03 36.02 26.73
S. aureovittata C 33.44 36.77 28.84 26.63 32.74 32.46 31.04 32.48 35.02 32.95 32.24 16.86 34.36
A 21.74 23.78 23.95 29.09 29.17 25.00 23.92 20.51 18.18 26.07 26.36 13.41 23.05
G 18.46 14.61 18.91 16.21 14.29 14.91 18.07 17.38 16.16 16.44 15.38 33.72 15.86
A+T 49.95 50.15 52.16 56.77 51.78 51.61 51.40 49.29 49.50 51.48 52.83 51.72 51.00
高体 T 27.18 25.60 28.41 27.82 22.02 27.78 27.23 27.35 30.64 25.63 26.03 36.97 26.99
S. dumerili C 32.92 35.05 29.19 26.84 34.52 32.75 30.92 34.47 35.35 32.37 31.96 15.33 33.39
A 22.77 24.55 23.75 28.95 29.76 23.83 24.17 21.94 18.86 25.85 26.80 14.75 24.01
G 17.13 14.80 18.64 16.38 13.69 15.64 17.68 16.24 15.15 16.15 15.21 32.95 15.60
A+T 48.51 47.27 52.22 56.29 51.19 50.81 51.53 50.99 48.82 49.46 53.12 50.19 49.96
五条 T 26.77 24.16 28.69 27.35 23.21 27.01 27.10 29.34 30.64 24.48 26.26 13.41 26.73
S. quinqueradiata C 32.72 37.15 28.24 27.35 33.33 33.43 30.92 32.76 34.68 33.02 31.65 33.91 33.83
A 21.74 23.11 23.53 28.94 27.98 23.80 24.43 21.65 18.18 24.98 26.86 36.78 23.23
G 18.77 15.57 19.54 16.35 15.48 15.77 17.56 16.24 16.50 17.52 15.23 15.90 16.21

对三种属鱼类的线粒体全基因组13个蛋白编码基因序列进行两两比对, 结果表明三种属鱼类的蛋白编码基因的相似性在85%~100%之间(图 3)。三者之间在ATP6基因中相似性最低, 但也在85%以上。中国和日本高体ND2和ATP8、ATP6、ND3、ND6和Cytb六个基因上的相似性高达100%; 中国和日本黄条ND1、CO II、ATP8和ND4L基因上的相似性也是100%。黄条种群中除了日本黄条Cytb基因与五条相似性低于90%, 其他所有蛋白编码基因相似性均在90%以上, 说明黄条和五条的亲缘关系最近。由于差异性不显著, 这些相似性100%的蛋白编码基因不适用于不同地理区域同种物种的鉴别, 但所有蛋白编码基因对于三种属鱼类都能有效区分。

图 3 三种属鱼类的13个蛋白编码基因之间的相似性比较 Fig. 3 Similarity of 13 protein-coding genes of the three Seriola species 注: CSD: 中国高体; JSD: 日本高体; SA: 中国黄条; SL: 日本黄条; SQ: 五条
2.7 系统进化分析

以日本花鲈为外类群, 构建了高体与其他鲹科鱼类的系统发育树, 由图 4可知, 每个鱼种都独立分支, 纺缍鲹属、小条属和属鱼类聚为单细分支, 且中国与日本髙体聚为一个独立小分支, 表明其具有最近的亲缘关系。在属鱼类中, 分化时间上高体略早于黄条和五条, 且高体与长鳍聚为一支, 亲缘关系最近; 黄条和五条同属一支。

图 4 基于线粒体基因组全序列构建的NJ系统进化树 Fig. 4 Molecular phylogenetic tree constructed by NJ method based on mitochondrial genome
3 讨论

本研究测定了高体的线粒体基因组全序列, 全长为16 530 bp, 其碱基组成为(T: 25.53%, C: 30.04%, A: 26.83%, G: 17.60%), GC含量约47.64%, 呈现出明显的AT偏好性, 这与脊椎动物碱基组成相似(张方等, 1998)。其中, 高体G碱基含量与其他硬骨鱼类如黄条 (17.84%) (史宝等, 2019)、斑鱚(Sillago aeolus) (18.75%) (肖家光, 2015)、西里伯斯青鳉(Oryzias celebensis) (17.60%) (马江茹, 2020)等含量相似, 表现出显著的抗鸟嘌呤现象。本研究基于高体线粒体基因组的基础上, 对其基因组结构特征、碱基组成、密码子偏好性及蛋白编码基因等做了系统分析。结果表明, 在高体线粒体基因组中, 13个蛋白编码基因除了ND6外, 其余均在H链上。基因组中重叠的片段在鱼类中一般只有7~10 bp, 而在哺乳动物中一般可达40~46 bp (Broughton et al, 2001; Zhu et al, 2013)。本研究发现高体重叠片段长度为1~14 bp, 其中, 蛋白编码基因CO II与tRNALys之间的重叠片段最大(14 bp), 在tRNAIle-tRNAGlntRNAGln-tRNAMetND2-tRNATrpCO III-tRNAGlytRNAThr-tRNAPro之间重叠片段最小(1 bp)。对于高体密码子偏好性分析显示, 以NNC类型的密码子使用频率最高, 与其蛋白编码基因组成中碱基C偏好性一致, 与条石鲷(Oplegnathus fasciatus) (孟乾等, 2020)结果类似; 但在鲂属(Megalobrama) (赖瑞芳等, 2014)、鳑鲏亚科(Acheilognathinae) (王尚洪, 2015)等鱼类中以NNA类型密码子使用频率较高。可见, 不同鱼种在密码子偏好性选择中存在差异。

本研究通过对中国海域高体线粒体基因组的37个基因的起止位置、长度及蛋白编码基因等特征分析显示与Iguchi等(2012)报道的日本海域高体线粒体基因组特征高度相似。但两者在rRNA与蛋白编码基因上存在差异。在rRNA中, 中国海域高体 16S rRNA较日本海域高体 16S rRNA基因长18 bp; 蛋白编码基因中, 中国海域高体CO I蛋白基因与ND5蛋白基因皆略短于日本海域高体, 而中国海域高体CO II蛋白基因略长于日本海域高体, 可能由于中国和日本高体存在一定的地理种群隔离而表现出的位点多态性。

此外, 本研究对三种属鱼类线粒体基因组特征、蛋白编码基因及其相似性进行比较发现, 高体CO II基因中以完全的“TAA”为终止密码子, 黄条和五条CO II基因中的终止密码子为不完全的“T”, 而其余的蛋白质编码基因则是以常见的TAA和TAG作为终止密码子。tRNAAsntRNACys之间的轻链复制起始区(OL)在3种属鱼类中是一个34 bp的DNA片段, 控制区是一个变异累积多, 进化速度最快的基因之一, 本研究中的三种属鱼类, 其D-loop区A+T含量都相对比较高, 该区域调控线粒体的复制和转录(郭新红等, 2004)。在tRNA结构中, tRNASer-GCT基因缺失二氢尿嘧啶臂(DHU臂)不能形成三叶草结构, 这在斑石鲷(Oplegnathus punctatus) (孟乾等, 2020)等鱼类中也有类似报道。每个蛋白编码基因在进化速率上是不同的, Zardoya等(1996)把13个蛋白质的编码基因依次划分为好、中、差3个组, 其中, CO IND2、ND4、CytbND5这5个基因作为好, CO II、CO III、ND1和ND6作为中等, 而ATP6、ATP8、ND3和ND4L则作为差的一组。本研究通过对三种属鱼类蛋白编码基因进行比较分析, CytbND基因均可用于属鱼类分子标记, 还可筛选合适蛋白编码基因用作不同地理种群划分, 为属鱼类的物种鉴定和系统进化分析提供依据。

本研究基于线粒体基因组全序列通过邻接法构建了部分鲹科鱼类系统发育树, 属鱼类与小条属先聚为一类, 再与其他鲹科鱼类聚为一大支, 这与郑文娟等(2008)采用单个基因16S rRNA分类结果一致, 在分化时间上高体要晚于黄条, 且黄条与五条亲缘关系最近, 同属于一个细支。高体和长鳍同属一个分支, 亲缘关系最近。

4 结论

本研究基于线粒体基因组结构特征比较, 推测中国海域高体与日本海域高体可能属于同一种群, 但可能存在一定的地理隔离。结合形态学与生物信息学成功将髙体与其他属鱼类属准确区分, 为属鱼类物种鉴别、种群划分和种质资源保护及可持续利用提供技术支撑, 助力我国鱼养殖产业的持续健康发展。

参考文献
马江茹, 2020. 西里伯斯青鳉线粒体基因组全序列和中华青鳉群体遗传结构的研究[D]. 湛江: 广东海洋大学: 29-30.
王尚洪, 2015. 鳑鲏亚科三种鱼类线粒体全基因组测定及其比较基因组学分析[D]. 南昌: 南昌大学: 54-76.
史宝, 柳学周, 刘永山, 等. 2019. 黄条线粒体全基因组测序及结构特征分析. 中国水产科学, 26(3): 405-415
肖家光, 2015. 基于线粒体基因组全序列的鱚属鱼类系统发育研究[D]. 青岛: 中国海洋大学: 24-25.
张方, 米志勇. 1998. 动物线粒体DNA的分子生物学研究进展. 生物工程进展, 18(3): 25-31
陈大刚, 张美昭. 2015. 中国海洋鱼类. 青岛: 中国海洋大学出版社, 1096-1097
陈四海, 区又君, 李加儿. 2011. 鱼类线粒体DNA及其研究进展. 生物技术通报, (3): 13-20
周传江, 马爱喆, 汪曦, 等. 2019. 鱼类线粒体基因组研究进展. 河南师范大学学报(自然科学版), 47(2): 74-82
郑文娟, 朱世华, 邹记兴, 等. 2008. 基于16S rRNA部分序列探讨12种鲹科鱼类的分子系统进化关系. 水产学报, 32(6): 847-854
孟乾, 张志勇, 张志伟, 等. 2020. 斑石鲷和条石鲷线粒体基因组密码子使用分析. 水产科学, 39(5): 702-709
郭新红, 刘少军, 刘巧, 等. 2004. 鱼类线粒体DNA研究新进展. 遗传学报, 31(9): 983-1000
黄小林, 杨育凯, 林黑着, 等. 2018. 篮子鱼属线粒体基因组序列系统发育信息分析. 生物学杂志, 35(5): 33-36 DOI:10.3969/j.issn.2095-1736.2018.05.033
程佩琳, 俞丹, 刘焕章, 等. 2021. 基于线粒体基因组全序列的鲟形目鱼类(Pisces: Acipenseriformes)的分子系统发育重建. 水生生物学报, 45(3): 487-494
赖瑞芳, 张秀杰, 李艳和, 等. 2014. 鲂属鱼类线粒体基因组的比较及其系统发育分析. 水产学报, 38(1): 1-14
廖志强. 2003. 高体网箱养殖技术. 中国水产, (12): 60-61
BERNAL-RAMÍREZ J H, ADCOCK G J, HAUSER L et al, 2003. Temporal stability of genetic population structure in the New Zealand snapper, Pagrus auratus, and relationship to coastal currents. Marine Biology, 142(3): 567-574 DOI:10.1007/s00227-002-0972-9
BROUGHTON R E, MILAM J E, ROE B A, 2001. The complete sequence of the zebrafish (Danio rerio) mitochondrial genome and evolutionary patterns in vertebrate mitochondrial DNA. Genome Research, 11(11): 1958-1967 DOI:10.1101/gr.156801
CUROLE J P, KOCHER T D, 1999. Mitogenomics: digging deeper with complete mitochondrial genomes. Trends in Ecology & Evolution, 14(10): 394-398
IGUCHI J, TAKASHIMA Y, NAMIKOSHI A et al, 2012. Species identification method for marine products of Seriola and related species. Fisheries Science, 78(1): 197-206
NUGROHO E, TANIGUCHI N, KATO K et al, 2000. Genetic difference among seed populations of greater amberjack used in aquaculture farm of Japan. Aquaculture Science, 48(4): 665-674
PREMACHANDRA H K A, LAFARGA-DE LA CRUZ F, TAKEUCHI Y et al, 2017. Genomic DNA variation confirmed Seriola lalandi comprises three different populations in the Pacific, but with recent divergence. Scientific Reports, 7(1): 9386
SATOH T P, MIYA M, MABUCHI K et al, 2016. Structure and variation of the mitochondrial genome of fishes. BMC Genomics, 17(1): 719
ZARDOYA R, MEYER A, 1996. Phylogenetic performance of mitochondrial protein-coding genes in resolving relationships among vertebrates. Molecular Biology and Evolution, 13(7): 933-942
ZHU Y X, CHEN Y, CHENG Q Q et al, 2013. The complete mitochondrial genome sequence of Schizothorax macropogon (Cypriniformes: Cyprinidae). Mitochondrial DNA, 24(3): 237-239