zhiyanleback

Again, Messages from Vaccine Patent

再说来自陈薇疫苗专利的信息。
直言简评，2021-04-09..
https://sites.google.com/site/zhiyanleback/2021-1/z20210409-patent-message
https://zhiyanleback.blogspot.com/p/again-messages-from-vaccine-patent-2021.html

这是前文的补充讨论，进一步参考中国军医陈薇团队的疫苗专利提供的信息、来说说在密码子水平用二进制镜像方法来观察新冠病毒的病源和突变的故事。

所谓【二进制镜像方法】：

它的英文是【Binary-Image】。通俗比方说就是照镜子。流行见解认为：数值【1】的镜像值为【-1】。这看起来简单，但这方法是计算机网络设计的一个热点课题、证明起来就不那么容易了。它包括许多算法。在此领域的优化组合方面，中国科研人员已经取得国际学界瞩目的优秀成绩。

而本人使用的是【八卦二进制镜像】方法。这个方法认为，跟八卦一样，数值【1】的镜像值是【0】而不是【-1】；由此，在二进制领域，某数值的镜像值如何取决于维度，维度数量为0和1的数量。譬如，在三维，十进制数值【2】的镜像值不是【-2】而是【5】。证明：十进制【2】的二进制三维表达为【010】，它的二进制镜像值是【101】、相当于十进制的【5】；四维，【2】的二进制表达为【0010】、其镜像值为【1101】即十进制的[【13】。

早在1960到1970年代，欧美学界就发现基因密码子的能量强弱顺序排列、跟中国古老的八卦生成六十四卦的顺序排列，彼此完全一致，即基因密码子完全可以用八卦二进制符号系统来表达，跟计算机芯片原理也完全符合了。

把上述两者组合，本人搞了个八卦二进制镜像的基因密码子表格，基本框架是：
假设：基因A的二进制表达【00】，其匹配对基因T的二进制表达就为【11】；
同理：基因C的二进制表达【01】，其匹配对基因G的二进制表达就为【10】。

于是就可以有六维二进制镜像的密码子表格系统建立了，譬如：
本值：AAA(000000)，AAC(000001)，AAG(000010)，AAT(000011)，等等。
镜像：TTT(111111)，TTG(111110)，TTC(111101)，TTA(111100)，等等。
（全表详见前文附录部分）。

在这个框架之下建立的基因密码子表格与现有标准密码子表格有所不同，要点是：现有标准表格可以清晰表达密码子的分子量等等，擅长单个基因和单个蛋白的比对，代价是无法表达能量及其变化、也难以用来做基因突变预测（注意：是预测而不是预报），甚至比对可能得出错误结论。而八卦二进制镜像的密码子表格，是基于六十四个密码子的能量及其变化的，直接反映了基因A和T以及C和G的匹配关系，且直接反映了基因组互动表达为三个基础基因合为一个单位的事实，因而不但可以用来清晰表达基因序列现状且可用来预测其突变趋势，重要的是，它的比对准确率高于现用单个基因和单个蛋白的比对。

重复前文例子：我们有两个具有相同氨基酸但密码子不同的基因组序列：

First:

Arg

Phe

Glu

Arg

Arg

Ser

Leu

Gly

Ser

Ser

Arg

Pro

Thr

Cys

Cys

AGG

TTC

GAG

CGC

CGG

AGT

CTC

GGC

TCA

TCC

CGA

CCG

ACT

TGC

TGT

Second:

Arg

Phe

Glu

Arg

Arg

Ser

Leu

Gly

Ser

Ser

Arg

Pro

Thr

Cys

Cys

CGT

TTT

GAA

AGG

CGT

TCC

TTA

GGA

TCC

TCA

CGG

CCC

ACC

TGT

TGC

它们在氨基酸或蛋白水平上的相似度为100％，在单个基因比对水平上为56％。见下：

Identities: 25/45(56%)

		Query  1   AGGTTCGAGCGCCGGAGTCTCGGCTCATCCCGACCGACTTGCTGT  45

		            | || ||  | ||     | || || || || || || || || 

		Sbjct  1   CGTTTTGAAAGGCGTTCCTTAGGATCCTCACGGCCCACCTGTTGC  45

然而，在密码子水平，它们相似度为0％，而且，它们的结构即能量的大小和方向都是不同的：

哪个比对的结果是正确的？我看，密码子水平比对结果是正确的。缘故很简单：当新冠病毒和受体ACE2相遇运行时，它们在彼此密切相关密码子水平的网络上互动而发生作用，并非是单个基因或单个蛋白的水平的作业。给定样本可能具有相同的氨基酸或蛋白，但不同密码子意味着结构和能量可能大不相同。这一点，二进制镜像密码子表和巴基球系统可以很好地解释。

由此，请再看看陈薇团队新冠疫苗的开发说明（摘录）：

1.S蛋白基因优化及合成：
重组新型冠状病毒疫苗的目标抗原为新型冠状病毒毒株(Genebank编号：NC_045512.2)的S蛋白。通过对S蛋白基因进行优化，提高S蛋白的表达水平，从而提高了疫苗的免疫原性。
……进行密码子优化，将S蛋白基因的大部分稀有密码子更改为高使用频率密码子。考虑到软件优化可能机械地将密码子更改为最高使用频率的密码子，受到tRNA使用效率、mRNA二级结构等影响，蛋白翻译效率可能并不会显著提升。在此情况下，采用人工分析替换部分高频和低频密码子的方法，同时将高频密码子和低频密码子均匀分布于S蛋白基因。同时考虑到提高mRNA中GC含量，有助于增强mRNA的稳定性，适当地提高了S蛋白基因的GC含量，并将GC尽可能均衡分布。……基因优化前，新型冠状病毒S蛋白基因的稀有密码子（使用频率<70％）的含量为34％，高使用频率密码子(使用频率>90％)的含量为23％，GC含量为36％。基因优化后，稀有密码子含量下降至3％，高频率密码子含量提升至81％，GC含量提升至58％，与原始S蛋白基因序列的同源性为70.4％。（摘录完）。

我个人理解：那是专利，可陈薇提出了一些相当独特新颖的学术见解。譬如，就包括基因比对和设计等等的作业的基础，流行方法是单个基因或单个蛋白的水平，而陈薇专利则是密码子水平，这就大大提高了其疫苗作业的准确性和覆盖率（效力的主要内容之一）。譬如，其特别强调基因C和G的含量和布局，而C和G是彼此匹配的镜像基因；这一对匹配基因和另一对匹配基因A和T，彼此也是镜像；这就直接反映了病毒基因的突变现状和可见未来的突变趋向。这一点，是流行方法所不具备的。

换句话说，陈薇没有使用【八卦二进制镜像密码子】的字眼，但她的专利及其科技说明已经把八卦二进制镜像密码子的系统方法付诸于病毒基因比对分析和疫苗开发设计的实践应用、且获得了成功（即：陈薇疫苗专利充分证明了八卦二进制镜像密码子系统方法是存在和有效的）。因此，本文特别参照了陈薇专利及其科技说明。

新冠病毒基因序列样本及来源。

如同前文，本文使用的病毒基因数据如下：
• CW1：陈薇疫苗专利，优化的新冠病毒S-基因组，2020年二月投入生产。
• CW2：陈薇疫苗专利，新冠病毒S-基因原始材料，前述优化者样本。
• NC_045512：国际通用病毒基础样本，来自武汉病号，2019年12月。
• WIV1：武汉病毒所一号新冠病毒，人工合成嵌合体，2015/2016财政年完成。
• RaTG13：武汉病毒所提供的蝙蝠样本，2013-07采集、2020-02发布，被称为病源。
• Bat-2012：蝙蝠样本，与RaTG13一样同在云南采集，2012年。
• Bat-2014：蝙蝠样本，与RaTG13一样同在云南采集，2012年。
以上样本来源：陈薇专利：CN111218459A，可在专利数据库获得。其它样本来自美国卫生部GenBank。

如前文所说，若被称为新冠病毒病源的蝙蝠RaTG13的病毒基因样本真的来自自然界，那么，它携带的病毒的基因数量频率和布局以及突变等等，应该跟自然蝙蝠2012和2014以及陈薇专利采用的原始材料、表现一样或大体一样；否则，就有充分的事实证据认为蝙蝠RaTG13的病毒基因序列来自人工合成，尤其是可能来自武汉病号样本的克隆与基因编辑的人工合成，因而它【鹤立鸡群】、与自然蝙蝠数据大不相同，却与病号样本数据格外相似、相似得如此完美以至于难以置信。

先看看陈薇专利的密码子频率布局：

CW图表-01：

图表中，左表是按照镜像原理排列的陈薇专利的密码子出现频率，CW1是疫苗部分、CW2是原材料部分，两者组合反映了病毒变异和疫苗优化的数量布局状态。这部分，乍看似乎完全随机而无规律可循。然而，把数据转换为二进制余数，见右边表格，其规律豁然清晰。譬如，互为镜像者（浅蓝色标记）大都在A－T区域，而彼此类同者（黄色标记）大都在C－G区域。而既不是镜像也不是类同者（白色标记），大都分布在含有C和G为多的区域。这些，正是陈薇专利说明的C－G基因布局的意义所在：就密码子能量强弱而言，它们居中，对病毒稳定性有重要意义，当然，对疫苗效力覆盖面设计也具有重要意义。

进一步来看看该专利的密码子三个基础基因（1st-2nd-3rd）的频率布局：

CW图表-02：

多么清楚：陈薇疫苗的密码子第三基础基因中，C和G的合计频率比例高达87%（左表，CW-01）。转换为二进制镜像表达（右表，CW-01），其A和T彼此镜像、C和G彼此镜像；纵看（三个基础基因）横看（四个密码基因），镜像分布非常均衡。对照原材料CW-02，这些特征看得更明显。这些，正是陈薇专利提供的重要信息：同时将高频密码子和低频密码子均匀分布于S蛋白基因；提高GC含量有助于增强mRNA的稳定性；适当地提高GC含量、并将GC尽可能地均衡分布。这些重要信息，在单个基因或单个蛋白的水平及其测验比对系统中、是难以看到甚至无法看到的；而在二进制镜像密码子水平的表达系统中，这些重要信息是一目了然的。

就样本同源相似而做密码子水平的考察。

用上二进制镜像密码子水平的方法，来考察一下前述样本的同源相似度。下面是相关数据：

CW图表-03：

图表中，基础样本的左侧是公开说明为人工合成品（CW1和CW2为专利， WIV1为武汉病毒所一号新冠病毒，人工合成嵌和体）；右边为蝙蝠样本，其中RaTG13因单个基因比对相似度96.2%而被称为是本次疫情的病毒来源，尽管其病毒并不直接传染人类。

如前说，与武汉病号样本（基本样本NC_045512）比对，蝙蝠RaTG13病毒基因序列及其频率和布局，都是如此完美地近似，却大大不同于自然蝙蝠2012和2014样本、同时也大大不同于陈薇疫苗实用的原始病毒，这就不得不质疑蝙蝠RaTG13基因数据来源的真实性和可靠性。

譬如，自然蝙蝠BAT-12和BAT-14，与武汉病号样本的各项指标都有明显差距，且自身的密码子基因频率布局明显不均衡，甚至没有镜像出现。如此随机，在自然界就是如此。按说，与这两者几乎同时同地出来的蝙蝠RaTG13的病毒基因频率布局应该彼此大体相似，可事实并非如此。更有甚者，与基本样本即武汉病号样本NC_045512做S-基因的密码子水平的比对，蝙蝠RaTG13的相同匹配得分为683，而包括两个自然蝙蝠样本的相同匹配得分只有66到99。见下：

S-Gene: Codon-Leveled Similarities to NC-045512
	WIV1	RaTG13	Bat-2012	Bat-2014
Length by Codon	1260	1256	1269	1132
Matching Score	78	693	66	94
Matching Ratio	0.0619	0.5518	0.052	0.083

蝙蝠RaTG13样本的采集时间是2013年，两个自然蝙蝠样本采集时间分别为2012和2014年，地点都是中国云南山洞。它们与基本样本的密码子相同匹配的差别或变异是如此悬殊，在自然界的同一地点的三年里是难以发生的。然而，陈薇专利说明，在实验室人工条件下，别说是693个相同得分即便55%以上的相同匹配度，就是达到99%的相同匹配也是可以做到的。

新冠病毒突变的现状特征和大体趋向。

美国卫生部有个全球新冠病毒突变统计：到2021年02月20日，确认的新冠病毒突变共有4777个事件。该统计框架不是基于单个基因或单个蛋白的统计，而是基于密码子水平。到目前，这是全球规模最大且是唯一的基于密码子水平的新冠病毒突变官方统计。

参考陈薇专利、用二进制镜像方法来观察该突变现状和趋势，也可得到不同于流行的单个基因或单个蛋白水平的作业的图景。相关数据如下：

CW图表-04：

图表中，【Ref】表示突变前的密码子及其数量，【Alt】表示突变后。左图为突变密码子三个基础基因的出现频率；中间图表为转换成二进制余数；右图为突变后频率减去突变前频率的差异数值。

通过二进制镜像可以看到，似乎随机无序的突变、表现有清晰的规律可循：基因A和G，突变前后状态呈现明显镜像，譬如，基因A，突变前布局为100、突变后为001，彼此为一维度镜像；同理，基因G也是如此，突变前为011、突变后为110，也是一维度镜像。而基因C和T，突变前的布局都是110、突变后的布局都是000。就第一基础基因而言，ACGT在突变前的布局是1101、而突变后则是0010，彼此四维镜像。就突变前后的频率差（GAPs），A和T的合计与C和G的合计，数值相同而方向相反（第一基础基因，A和T的差合计为-292，C和G为292；第二基础基因，AT合计-365而CG合计为365；第三基础基因，AT合计-153、CG合计153。可见，陈薇疫苗使用CG为均衡因素，是很有道理的）。

这些突变镜像状态，反映的是新冠病毒突变前后自身能量大小方向及其与受体ACE2互动时能量消耗的变化：病毒作业的能量消耗减少，即便其原破坏能量不变、其传播力也会明显增强，从而可以导致疫情不断扩展、甚至可导致复阳出现。

进一步看看该密码子突变的整体状态。数据如下：

CW图表-05：

同前，图表中，【Ref】表示突变前的密码子及其数量，【Alt】表示突变后。左图为突变密码子出现频率及其镜像数值。譬如，密码子AAA，突变前出现频率为89，突变后为96；其镜像密码子TTT，突变前出现频率为272、突变后为89。同理，密码子CTT，突变前出现频率为126、之后为169；其镜像密码子GAA，突变前频率为60、突变后为87。余类推。

右图为转换为二进制余数。可以清楚看到：

密码子AAA及其镜像TTT，突变前后呈现二维镜像布局（前为10、后为01）；同样，密码子AAG及其镜像TTC，突变前后也呈现二维镜像（前为01、后为10）。这些状态用浅蓝色标记。

而密码子AAC及其镜像TTG，突变前后布局一样、都是11；同样，密码子ACC及其镜像TGG，突变前后布局都是01。这些状态用黄色标记。

密码子ACA及其镜像TGT，突变前为01、后为11，既无镜像、彼此也不相同；同样，密码子CTG及其镜像GAC，突变前后分别为11和01，也是既无镜像也彼此不同。这类状态用白色表示。

将上述二进制镜像图表按中国古代八卦的四象方法和八八六十四卦镜像排列，可看到新冠病毒突变的现状特征和大概趋向，图表如下：

CW图表-06：

了解中国八卦【象数易】方法，就不难看到：

本排列为阅读方便，采用【面北】方法：上为坤（北）、下为乾（南）；左为坎（西）、右为离（东），两两彼此镜像的【四象】。每个方位由八对十六个密码子，彼此按匹配对做镜像排列（AAA和TTT镜像、AAC和TTG镜像，等等），四个方位合计刚好64个密码子。密码子呈现AAA到CTT的能量由弱到强、镜像TTT到GAA的由强到弱逆向（GAA到TTT的顺序）排列。

四个区域中，新冠病毒突变前后的密码子频率布局呈现镜像者，多在【坤】（北）区的AT镜像区；呈现相等者多在【坎】（西）区的CG区；突变前后不呈现镜像或相等者，躲在【乾】（南）区和【离】区的 TA区和GC区。就后者两区，突变前的密码子能量较强者为多数。

上述图景说明，新冠病毒不像是经过自然选择而大体稳定的病毒，而更像是近期（最多10来年或五六年内）人工合成嵌合体，因而，基于【适应】而呈现频繁多变。可说，新冠病毒突变远没结束，今后突变主要表现为上图的【离】（东）和【乾】（南）的TA区和GC区的突变。当然，这并非意味着其它两区的突变已经结束，相反，它们的现状对近期未来的东南两区突变有至关重要的镜像能量互动稳定作用。

关于陈薇病毒的覆盖率。

陈薇说，她的团队开发的新冠疫苗可覆盖所有已知突变。是否如此？本人不搞疫苗，也没看到具体说明，不知道那个覆盖率是怎么来的、从行业角度也说不出什么。然而，从本文使用的八卦二进制镜像密码子表格的角度看，陈薇疫苗覆盖率较高是属实的。下面是综合以上的陈薇疫苗和病毒突变的相关比对：

CW图表-07：

图表左图是陈薇疫苗、中图是病毒突变的S-基因和全序列；右图是陈薇疫苗专利所说的针对对象即基本样本NC_045512（武汉病号样本）的S-基因和全序列。全部按二进制镜像框架排列。

可以看到，基本样本NC_045512中能量较强的密码子镜像匹配对，在陈薇疫苗里，大约80%左右得到了基因CG频率布局改变而做的能量弱化处理。这不仅保障了疫苗有较大覆盖面且提高了安全性。

与突变数据对照：陈薇疫苗是2020年二月完成并投入生产线的，而该突变数据是截止2021年02月20日的，彼此相差一年。然而，还是可以看到陈薇疫苗覆盖率是相当可观的。譬如，就密码子彼此镜像和等同而言，陈薇疫苗的相关频率超过突变的S-基因并与全序列大体相当，同时，陈薇疫苗的密码子镜像或等同的布局也比突变的S-基因和全序列的有着明显的优化均衡状态。可说，即便陈薇疫苗没有100%地覆盖了一年之久的所有突变，但可以覆盖相当大甚至绝大部分。

从密码子三个基础基因的频率布局对照来看，也可得出同样见解。如下：

CW图表-08：

该基于中国古代八卦原理的二进制镜像图表显示，从能量角度看，可说，陈薇疫苗的密码子基因频率布局处于相当优美的均衡状态：

左边图像，现状静态，在密码子的第一和第二基础基因，AC趋向【1】方向的同时GT趋向【0】方向；在第三基础基因，AT趋向中间、形成在【0】和【1】的镜像、同时，G与T分别趋向【0】和【1】的方向极端。右边图像，趋向动态，陈薇疫苗密码子的三个基础基因分别处于AC和GT的【1】和【0】的镜像方向、且最接近于中间方位。

这样一来，病毒突变时密码子方位变化，多数情况下就总会有被疫苗导致的免疫抗体基因镜像应对，即大大提高了疫苗的覆盖率。与此并行，对于中间区域来说，AT两者最平衡，而CG则明显或趋向于【0】的极端、或趋向于【1】的极端，诚如陈薇疫苗专利所说，这对病毒和疫苗都有稳定性作用。不难理解，由此导致的免疫抗体基因镜像的应对范围就得到扩大的同时增加了稳定性。

简言之，八卦二进制镜像方法或许不在于指出新冠疫苗覆盖率的具体百分比数字，但它可以指明疫苗覆盖范围是否表哭哦了病毒突变的现状及趋向。就此而论，陈薇疫苗确实在相当大范围内覆盖了新冠病毒在2020年02月及之前的突变现状和截止2021年02月的突变趋向。

陈薇专利没有说明的问题：隐性密码子。

在上图中，Mut-S-Alt即突变后的S基因，呈现无序状态，而不是稳定有序状态。什么缘故？说明什么？陈薇疫苗能覆盖那种无序突变吗？还有，在突变中，CT或TC的出现频率最高或说它们最活跃。这是什么缘故？此外，那个著名的D614G 突变，是G>A突变、是能量由高到低的突变，按说，那是病毒在适应过程中的【衰变】、应该是传播力降低的，可为啥它导致病毒传播力更强了呢？这个突变是疫情初期就在中国境内完成了的（不是【境外输入】），陈薇疫苗覆盖这个已知突变的时间到底有多少月或多少年？

那些问题，陈薇专利没有说明。这或许怪不得陈薇。理由：在流行或通用的单个基因或单个蛋白的观察比对框架下，那些问题无法解答，或最多做做猜测性的模糊解释。

而在八卦二进制镜像方法的框架之下，那些问题可以得到足够充分的解释。其中，【隐性基因】或【隐性密码子】是个关键课题。举例。下面是国际医学界和学界议论较多的突变事件中的几个例子：

CW图表-09：

第一个例子，新冠病毒的突变【AAT>AAC】，截止2021-02、它的出现频率达75次、是新冠病毒密码子水平突变中频率最高者。这是密码子第三个基础对基因的【T>C】突变。密码子AAT和AAC的能量差别不大，却导致病毒能量发生显著降低的效果。缘故：每一个显性密码子含有六个隐性密码子。就突变前密码子AAT来说，它含有的六个隐性密码子分别是：一个AAA和五个TTT；同理，突变后密码子AAC含有六个隐性密码子分别是一个AAA和五个CCC。这一来，一个显性能量差异只有２个单位（3-1=2）的【AAT>AAC】突变，而由隐性密码子变异带来的能量差异实际上合计是212个单位（318-106）、是显性能量差大约两倍之多，故而，这个突变的能量变化是相当显著的，其直接表现就是T>C突变频率最高、甚至特高（见下图表）。

同理，第二个例子，突变【ATA>GTA】，是密码子第一个基础对的A>G的突变。就显性突变来说，它应该是提高病毒能量水平的（由12提高到44），但实际上是降低。缘故：两者的六个隐性密码子随之发生变异，组合结果是降低了能量水平（由255降到239）。

至于那个很出名的突变D614G、即第三个例子，是密码子【GGT>GAT】突变、是第二基础对的【G>A】的突变。按显性突变来说，它应该是降低病毒能量水平（43到35）；可是，因其六个隐性密码子的组合作用，其突变导致能量水平从143升高到206、几乎翻番增加。当然，这就大大增强了病毒传播力。

综合以上，下面是截止今年二月的新冠病毒密码子基础基因的突变频率现状的图示：

CW图表-10：

图中，ACGT分别为突变前基因（REF），各自所含三个基因为突变后（ALT）。譬如，突变A>C的频率为164、A>G的频率为427、A>T的频率为361，A的突变频率合计为952。而突变T>C的频率为1289，与其它两个突变合计、T的突变频率为 2146，明显最高。

右图展现的是：病毒的隐性密码子突变与八卦象数易也是彼此吻合。可说不少，这里之说一点：八卦的离卦和乾卦表示动态趋向，而病毒密码子突变最活跃者就在这两卦区域；坎卦和坤卦表示静态趋向，而病毒密码子突变较低活跃者就在这两卦区域。

举例。譬如，突变T>C的频率为1289、最高，位于乾卦区域；它的镜像突变A>G，明显频率较低但与其它突变相比为频率较高者，位于坤卦区域。再譬如，突变C>G频率为89、它的镜像突变G>C为59，前者位于离卦而后者位于坎卦、即两个彼此镜像的卦象。密码子基因C的突变频率合计987、G的为690，前者高于后者而为更活跃者，但CG两者合计明显低于A和T的合计，且都处于向动态极端乾卦或向静态极端坤卦运动的动态区域。

这个象数易也反映了陈薇疫苗把C和G两个密码子基因数量提高的意义：增加它们的表达频率、利用它们的活跃动态来达到疫苗或病毒的基因布局的均衡稳定。

注：
关于所谓【隐性基因】或【隐性密码子】，1950年代和1960年代就成为一个学界的重要课题；2017年，得到充分证实，且确认至少有47个显性密码子隐藏【起始密码子】的功能，以至于相关学界说是“所有的密码子都可能是【起始密码子】”（详见美国国家标准局2017年二月发布的科研通讯：【起始密码子】比以前知道的多得多，《Start Codons in DNA and RNA May Be More Numerous Than Previously Thought》）。这或许解释了本次疫情新冠病毒突变的一个“怪象”：【起始密码子】被删除了，可病毒还在继续发挥作用、甚至传播力和破坏力不减反增。

从【纯粹】理论数量方面说，每个显性密码子含有六个隐性密码子，那就意味着实际上有64*7=448个密码子；64个密码子可生成4096个突变可能，如此，448个密码子就可生成200,704个突变可能；同时，在密码子三个基础对基因水平而言，可能导致的突变就是个很大的数字：4,398,046,511,104。

由此不难理解：新冠病毒发生一个基因突变，随之就会有成百上千的不同突变，且越多突变、基因和密码子的频率布局就不是越来越有序、而是越来越无序（见上，Mut-S-Alt），可说是个很典型的混沌学的【蝴蝶效应】。当然，这也是区别实验室突变和自然界突变的一个重要参考：前者【均衡有序】实际无序、后者【杂乱无序】实际有序。

由此而来的问题：陈薇说，她的团队开发的新冠疫苗可覆盖所有已知突变。从其专利和论文看，其开发思路是基于【显性密码子】的。如此，即便该疫苗覆盖了显性突变的已知和未知的所有可能，那也只是包括显性和隐性的突变合计的2.04%（显性突变可能4096 / 显性隐性突变合计200704 = 0.020408）。或许，不管专利和论文怎么说，实际操作可能覆盖了显性和隐性的突变，然而，本人没见到陈薇他们的说明。

小结：

本文毫无推崇或否定陈薇疫苗的意思，也毫无推荐或反对人人接种陈薇疫苗的意思。是否接种任何新冠疫苗，请您征求自己有正式合同关系的医院医生的意见。本文试图说明的是：单个基因或单个蛋白的数据采集整理和比对分析是必要的，但很不充分，譬如还需要有密码子水平的数据整理和比对分析，否则，就难免得出错误的观察结论。就此而言，中国古代易经象数易系统和现代科技的镜像方法的组合的八卦二进制镜像方法，可以为密码子水平的基因观察分析提供非常有效的方法。这个方法的全面深入阐述和证明是篇大文章，本文只是做个简单展示而已。。

相关数据及来源：

本文使用的病毒基因数据及来源，前述及前文已经交代。关于截止2021年02月20日的全球范围的新冠病毒突变基因数据，请参考美国卫生部基因库的：NCBI Visual Data Dashboard，链接：https://www.ncbi.nlm.nih.gov/labs/virus/vssi/#/ 。

附表01：相关样本S-基因的密码子频率。
CW1和CW2：陈薇专利的疫苗和原材料的短名。
WH-01：基本样本NC_045512（武汉病号）样本的短名。
Bat-12和Bat-14：云南蝙蝠2012和2014年样本的短名。

Global S-Gene Codon Frequence (raw data: NIH GenBank, CW-Patent)
	CW1	CW2	WH-01	WIV1	RaTG13	Bat-12	Bat-14		CW1	CW2	WH-01	WIV1	RaTG13	Bat-12	Bat-14
AAA	0	38	0	0	0	0	0	CAA	0	46	0	0	0	0	0
AAC	89	34	88	86	85	77	90	CAC	15	4	17	15	18	16	20
AAG	63	23	61	60	63	45	35	CAG	62	16	62	54	60	47	54
AAT	0	54	0	0	0	0	0	CAT	2	13	0	0	0	0	0
ACA	42	40	0	0	0	0	0	CCA	9	25	0	0	0	0	0
ACC	46	11	97	93	98	77	100	CCC	35	5	58	62	58	43	71
ACG	0	3	0	0	0	0	0	CCG	0	0	0	0	0	0	0
ACT	10	44	0	0	0	0	0	CCT	13	29	0	0	0	0	0
AGA	2	20	0	0	0	0	0	CGA	0	0	0	0	0	0	0
AGC	56	5	99	98	97	96	104	CGC	1	1	0	0	0	0	0
AGG	19	10	42	42	39	38	38	CGG	21	2	0	0	0	0	0
AGT	1	17	0	0	0	0	0	CGT	0	9	0	0	0	0	0
ATA	0	18	0	0	0	0	0	CTA	0	9	0	0	0	0	0
ATC	57	14	76	77	79	71	51	CTC	18	12	0	0	0	0	0
ATG	15	14	14	17	14	21	29	CTG	88	3	108	102	109	100	117
ATT	19	44	0	0	0	0	0	CTT	1	36	0	0	0	0	0
GAA	1	34	0	0	0	0	0	TAA	0	1	0	0	0	0	0
GAC	32	20	62	72	64	40	48	TAC	54	14	54	50	55	47	61
GAG	48	14	48	43	47	45	42	TAG	0	0	0	0	0	0	0
GAT	31	43	0	0	0	0	0	TAT	0	40	0	0	0	0	0
GCA	0	27	0	0	0	0	0	TCA	0	26	0	0	0	0	0
GCC	79	10	79	82	80	83	107	TCC	41	12	0	0	0	0	0
GCG	0	2	0	0	0	0	0	TCG	2	2	0	0	0	0	0
GCT	4	42	0	0	0	0	0	TCT	0	37	0	0	0	0	0
GGA	1	17	0	0	0	0	0	TGA	1	0	0	0	0	0	0
GGC	46	15	82	77	82	79	83	TGC	41	12	40	39	40	42	46
GGG	37	4	0	0	0	0	0	TGG	12	12	12	11	12	20	15
GGT	0	47	0	0	0	0	0	TGT	2	28	0	0	0	0	0
GTA	0	15	0	0	0	0	0	TTA	0	28	0	0	0	0	0
GTC	21	22	0	0	0	0	0	TTC	54	18	77	83	75	60	58
GTG	75	13	97	93	94	85	121	TTG	2	20	0	0	0	0	0
GTT	1	48	0	0	0	0	0	TTT	23	59	0	0	0	0	0

Search This Blog

zhiyanleback

Comments

Post a Comment

Popular posts from this blog