基因检测公式(生活中的数学概率计算)
基因检测公式(生活中的数学概率计算)但是, 多高才算高风险呢? 由于23andMe公司发现我有一个特定的基因型, 所以我的发病风险有多大呢? 为了让他们对我做出的风险预测更可信, 我需要确保他们的数学分析建立在坚实的基础之上, 而不是草率得出结论。人体中的每个细胞都含有一个细胞核, 其中包含DNA的拷贝,即“生命之书”。 我们的23对染色体传承着这些长长的纽结状核苷酸, 每对染色体中有一条来自父本, 另一条来自母本。 这两条染色体携带的基因拷贝相同, 其序列相似, 但不一定完全一致。 比如, 23andMe公司测试的就是与阿尔茨海默病相关的APOE基因的两个主要变异体: ε3和ε4。 其中, ε4变异与迟发性阿尔茨海默病的患病风险增加有关。 因为有两条染色体, 所以你可能有一份ε4和一份ε3的拷贝, 或者两份ε4拷贝(没有ε3的拷贝) , 或没有ε4的拷贝(两份ε3的拷贝) 。 拷贝数量被称为你的基因型。 两份ε3拷贝是最常
如果您喜欢这篇文章或者希望及时看到系列文章的下一篇内容,请点击右上方的“关注”。感谢您的支持和鼓励!
(1)基因测试的可靠性2007年, 以人类的23对染色体命名的23andMe公司, 成为全球第一家提供个人DNA检测服务的公司。 第二年, 在谷歌的400万美元投资的推动下, 他们研发出了一项唾液测试, 可以估算一个人患酒精不耐受、 心房颤动等近100种疾病的可能性。 他们推出的特征列表非常全面, 彰显了变革行业的力量, 《时代周刊》 授予该测试“年度发明奖”。
但对23andMe公司而言, 美好的时光并没有持续多久。 2010年, 美国食品药品监督管理局(FDA) 通知所有个人基因检测公司, 他们的测试属于医疗设备范畴, 需要得到美国联邦政府的批准。 但直到2013年,23andMe公司仍然没有获得批准, 于是FDA命令他们停止提供疾病风险预测服务, 直到他们的测试的准确性得到验证。 23andMe公司的客户为此发起集体诉讼, 声称他们受到了该公司在可提供服务方面的误导。2014年12月, 在此事件发展到高潮时, 23andMe公司在英国推出了与健康相关的基因检测服务。 鉴于之前的这些争议, 我也想知道他们为我做的DNA检测的可靠性。
33岁的网络开发员马特·芬德刊登在《纽约时报》 上的经历, 也没有消除我的担忧。 作为一位极客和“疑病症”这个日益庞大的组织成员之一, 芬德是23andMe公司的理想客户。 23andMe公司在收到他的个人数据并经过第三方检测机构的解释后, 告诉芬德他的PSEN1基因变异呈阳性。 PSEN1是早发性阿尔茨海默病的一个指标, 具有“完全外显性”, 这意味着每个有PSEN1突变的人都会患上这种疾病——没有例外, 也没有但是。 不出所料, 芬德对他将会失去抽象思考能力和解决问题的能力以及无法形成相关记忆感到震惊。 该诊断使他的高质量预期寿命至少减少了30年。
基因突变的阴影在他的脑海里挥之不去, 他特别渴望他人的安慰。由于芬德没有阿尔茨海默病的家族病史, 所以他成功地说服了遗传学家再给他做一次检测。 这一次他给Ancestry.com基因检测公司发送了自己的唾液样本, 5周后检测结果出来了: PSEN1基因变异呈阴性。 芬德松了一口气, 但他比以前更困惑了。 他最终说服医生为他进行临床评估,并证实了Ancestry.com的阴性检测结果。
23andMe和Ancestry.com使用的测序技术的错误率仅为0.1%, 这看似非常可靠。 但值得注意的是, 当测试近百万个遗传变异时, 即使错误率如此低, 也会出现大约1 000个碱基对的错误。 两家独立公司的结果之间可能存在分歧, 这令人担忧, 但并不令人惊讶。 也许更令人担忧的是, 检测结果缺乏理论的支持。 要求在家进行基因图谱分析的测试者在处理他们的结果时也几乎与医疗系统完全隔离。
由于23andMe公司锐减了基因检测范围, 它逐渐获得了FDA的批准, 于2017年在美国重新营业, 他们的家庭DNA检测试剂盒成为亚马逊当年“黑色星期五”最畅销的产品之一。 尽管我对此存疑, 但我还是订购了一个试剂盒并将我的唾液样本送去检测。
人体中的每个细胞都含有一个细胞核, 其中包含DNA的拷贝,即“生命之书”。 我们的23对染色体传承着这些长长的纽结状核苷酸, 每对染色体中有一条来自父本, 另一条来自母本。 这两条染色体携带的基因拷贝相同, 其序列相似, 但不一定完全一致。 比如, 23andMe公司测试的就是与阿尔茨海默病相关的APOE基因的两个主要变异体: ε3和ε4。 其中, ε4变异与迟发性阿尔茨海默病的患病风险增加有关。 因为有两条染色体, 所以你可能有一份ε4和一份ε3的拷贝, 或者两份ε4拷贝(没有ε3的拷贝) , 或没有ε4的拷贝(两份ε3的拷贝) 。 拷贝数量被称为你的基因型。 两份ε3拷贝是最常见的基因型, 是判断患阿尔茨海默病可能性的基线。 你拥有的ε4变异体的拷贝越多, 患阿尔茨海默病的风险就越高。
但是, 多高才算高风险呢? 由于23andMe公司发现我有一个特定的基因型, 所以我的发病风险有多大呢? 为了让他们对我做出的风险预测更可信, 我需要确保他们的数学分析建立在坚实的基础之上, 而不是草率得出结论。
*
预测阿尔茨海默病发病风险的最佳方法是选择可代表一般人群的大量个体, 确定他们的基因型, 然后定期检查并统计患上阿尔茨海默病的人数。 利用这些代表性数据, 可以很容易地比较出拥有特定基因型的人群患上阿尔茨海默病的风险与一般人群的发病风险的差异, 这就是所谓的“相对风险”。 通常, 由于需要大量样本的参与(特别是对于罕见疾病) , 这种纵向研究成本高昂, 而且需要通过长时间的跟踪观察才能得到可靠的结果。
在学术界更常见但不太有效的一种替代方案是病例对照实验, 选择一些已患上阿尔茨海默病的个体, 以及一些“控制变量”, 即具有相似背景但未患病的个体。 (我们将在第3章看到为什么精细地控制个体背景非常重要。 ) 在纵向研究中, 参与者的选择与其疾病状态无关, 然而在病例对照实验中, 更倾向于选择患病者。 因此, 我们无法估算大规模人群中的疾病发病率, 这意味着我们对该疾病的相对风险进行的预测是有偏差的。 然而, 这些实验确实可以让我们计算出“优势比”的值, 这类量值不需要你预先知道人群中的总发病率是多少。
如果你去过赛狗场或赛马场, 你可能记得某只动物赢得比赛的概率通常以赔率表示。 在某场比赛中, 一只不被看好的动物可能的赔率是5∶ 1。 这意味着, 如果同一场比赛共进行6次, 那么这只动物很有可能输掉5次, 而只赢1次。 也就是说, 它获胜的概率是1/6。 赔率的一般定义方式是, 事件的未发生概率与事件的发生概率之比(在这个例子里,赔率为5/6∶ 1/6, 或者更简单地记为5∶ 1) 。 相反, 比赛的种子选手的胜率可能是2∶ 1。 在体育博彩中, 总是习惯把较大的数字放在前面, 所以我们需要区分胜率和赔率。 与赔率相反, 胜率表示的是事件发生概率与未发生概率之比。 如果胜率为2∶ 1, 那么在三场比赛中, 种子选手将赢两场而输一场。 种子选手的获胜概率是2∶ 3或2/3, 输掉的概率是1/3, 所以胜率是2/3∶ 1/3, 或者简单记为2∶ 1。
当你听到评论员或簿记员说出种子选手的胜率时, 这通常只会出现在有少量马匹参加的比赛中。 但其实这是句废话。 任何有胜算的马都是种子选手, 因为这匹马在任何比赛中获胜的概率都大于它输掉比赛的概率。 在有大量马匹参与的比赛中, 一匹马赢得的比赛比输掉的多就不太常见了。 比如, 在英国最著名的国家越野障碍赛马中, 共有40匹马参加。 即使是2018年的获胜者和2019年比赛的种子选手(并最终获胜) 虎皮卷, 其赔率也为4∶ 1。 因为除非另有明确规定, 否则大部分赛马都不可能赢得大部分比赛, 所以在这些比赛中用的通常是赔率。
在医疗场景中, 情况恰恰相反。 概率通常表示胜率, 即事件发生的概率和不发生的概率之比。 而且, 由于我们通常谈论的是罕见疾病(在总人口中的流行率低于50%) , 所以通常把较小的数字放在前面。
为了解释如何计算医学上的概率及其比值, 我们可以考虑一个假想的病例对照研究, 研究单个ε4变异体(存在于我的DNA中) 对85岁前的阿尔茨海默病发病率的影响。 表2–1表示在85岁前患阿尔茨海默病的概率, 对于与我一样具有相同的一份ε4变异体的人来说, 患有该疾病的人数(100) 除以未患病的人数(335) 为100∶ 335, 或表示为分数100/335。 按照相同的逻辑填写表格的第二行, 对于有两份ε3变异体的人来说, 在85岁前发病的可能性为79∶ 956或79/956。 概率比是指拥有某种基因型(比如一份ε4的拷贝和一份ε3的拷贝) 发病的概率与拥有最常见基因型(两份ε3的拷贝) 发病的概率之比。 对于表2–1中给出的假设数字, 优势比为100/335除以79/956, 结果为3.61。 重要的一点是, 我们并不需要知道整个人群的发病率, 就可以很容易地通过病例对照研究算出概率比。
虽然优势比本身并不能揭示相对风险(ε3/ε4基因型的发病风险与ε3/ε3基因型的发病风险的比值) , 但我们可以将之与患病人群及已知的基因型频率相结合, 得出某基因型的发病概率。 然而, 这种计算并不像看上去那么简单。 事实上, 可以有不止一种算法。 我尝试使用与23andMe公司相同的方法, 直接从报告或他们引用的论文中获取数据,看能否得出与我的遗传报告相同的迟发性阿尔茨海默病的患病风险。 [1](如果你感兴趣, 我可以告诉你我是用包含3个未知条件概率的3个耦合方程, 并用一个非线性求解器计算出疾病的发生概率, 我平时喜欢自己动手计算。 ) 我发现, 我得到的数字和他们给出的数字之间存在微小的差异, 但这个差异可能很重要。 我的计算似乎表明, 我应该在一定程度上用怀疑的目光审视23andMe公司给出的检测结果的精度。
2014年的一项研究调查了三家领先的个人基因检测公司(包括23andMe公司) 的风险计算方法, 从该研究中我的结论得到了某种程度上的印证。 [2]他们发现, 总人口风险、 基因型频率和使用的数学公式的差异, 共同导致了不同公司的预测风险之间的显著不同。 当人们将个人风险分为升高、 降低或未改变等类别时, 差异变得更加明显。 该研究还发现, 在所有接受前列腺癌检测的人中, 有65%得到了三家公司中的至少两家截然相反的风险类别(升高或降低) 结果。 在近2/3的案例中,一家公司可能告诉客户他们是健康的, 而另一家公司却告诉客户他们患前列腺癌的风险显著增加。
若不考虑遗传测试本身错误的可能性, 我得到了我想问的第三个问题的答案: 使用不同的数学方法可能会得到不同的结果, 这意味着个人基因检测报告中列出的患病风险在某种程度上应该受到质疑。
“下一篇:生活中的数学 概率计算:如何读懂体检报告 (2)高光时刻”
如果您喜欢这篇文章或者希望及时看到系列文章的下一篇内容,请点击右上方的“关注”。感谢您的支持和鼓励!