快捷搜索:  汽车  科技

log3为底2与log4为底3比大小:数据为什么要进行log2转化

log3为底2与log4为底3比大小:数据为什么要进行log2转化图3. Raw数值分布2,芯片或者测序数据的log2转化图2. Log2坐标轴(来自statquest,有修改)

2022年10月24日,首先祝所有程序员们(会写、会看代码的都算)节日快乐!
1024是2的十次方,二进制计数的基本计量单位之一。做生信分析的小伙伴就像是一个个1024,用最低调、最踏实、最核心的功能模块将计算机程序应用到生命科学中,促进科学发展。1G=1024M,而1G与1级谐音,做生信分析的小伙伴都是一级棒的!


1,fold change的log2转化

以转录组分析为例,例如我们测了某基因在3个样品中的表达值,例如在A样品中基因TP53表达量为8,在样品B中表达值为1,在样品C中表达值为0.125(即1/8)。
将它们列在常规的坐标轴上。可以看到A vs B上调了8倍,而C vs B下调了8倍。然而在这个坐标轴上,A与B之间的距离(红色大括号)要远大于C到B之间的距离(蓝色大括号)。

log3为底2与log4为底3比大小:数据为什么要进行log2转化(1)

图1. 常规坐标轴(来自statquest,有修改)


而按照人们一般的理解,上调倍数和下调倍数应该是对称的,因此如果我们将坐标轴log2转化下。8 log2后转成3,0.125 log2后转成-3,那么它们在坐标轴上的距离就一致了。

log3为底2与log4为底3比大小:数据为什么要进行log2转化(2)

图2. Log2坐标轴(来自statquest,有修改)


在常规的分析中,我们一般使用正值代表上调,例如8代表上调8倍;负值代表下调,例如-8代表下调8倍。如果fold change是0.125,就很难看出变化了多少倍(除非你数学学得极好),你还得自己做个倒数。


2,芯片或者测序数据的log2转化

一般情况下,我们的芯片或者测序给出来的原始值范围都是非常大的,例如Agilent芯片的信号强度从0到65535,tpm从0到25000。将它们绘制密度分布后,一般呈现右偏,即大部分信号都是在左侧,右侧拖个长长的尾巴,不利于研究,而经过log2转化后,数据更加集中,更加接近正态分布,更方便我们套用正态分布那一套进行研究。

log3为底2与log4为底3比大小:数据为什么要进行log2转化(3)

图3. Raw数值分布


log3为底2与log4为底3比大小:数据为什么要进行log2转化(4)

图4. 更接近正态分布


总结下(Coursera上杜克大学的统计学课程)

取对数,只是数据变换的一种方式,除此之外还可以取平方根、取倒数等。

数据变换的目的,有三点:

1.We might want to see the data structure a little differently (数据范围压缩了)

2.We might want to reduce skew to assist in modeling (更接近正态了)

3.We might want to straighten a nonlinear relationship in a scatterplot so that we can model the relationship with simpler methods(更容易用简单的方法来研究了)


另外,强烈推荐大家看看StatQuest!
微生信助力高分文章,用户55000 ,引用700




猜您喜欢: