【论文笔记】A Multi-Task Learning Formulation for Predicting Disease Progression「建议收藏」

AMulti-TaskLearningFormulationforPredictingDiseaseProgression论文地址摘要1.介绍2.多任务回归方程2.1时间平滑先验2.2解决数据不完整问题2.3LASSO时间群正则2.3.1纵向(时间项)稳定特征选择2.4本文算法3.实验4.结论论文地址AMulti-TaskLearningFormulati…

大家好,又见面了,我是你们的朋友全栈君。

论文地址

A Multi-Task Learning Formulation for Predicting Disease Progression
Author: Zhou J, Yuan L, Liu J, et al.

摘要

临床判断阿尔茨海默症(AD)的两个指标:Mini Mental State Examination(MMSE)和Alzheimer’s Disease Assessment Scale cognitive subscale(ADAS-Cog)。本文基于岭回归提出了一种多任务学习的算法来通过以上两个标准(criteria)预测疾病进展,同时也可以选出有代表性的特征。本名提出一个多任务学习模型。本文认为,对于AD,每一个时间点的预测算作一个独立任务,通过给岭回归加上时间项约束(temporal group LASSO regularizer),将独立任务整合为多任务,从而捕获(capture)不同任务中的内在联系(intrinsic relatedness),前提是认为每个时间点的回归任务近似。时间项约束包括两部分,一个是 ℓ 2 , 1 \ell_{2, 1} 2,1范数惩罚(penalty),目的是保证对于所有时间点只挑选一小部分特征。另一个是时间平滑项,目的是为了在连续(successive)的时间中,前后的两个模型的偏差(deviation)程度要小。大量(extensive)实验证明本文提出的模型相较其他的模型更具有优势,同时挑选的特征也同之前他人研究中的结果一致。作者使用的数据集是ADNI。

1. 介绍

目前AD的确诊需要对于脑部进行活检或者解剖,MMSE和ADAS-Cog可以作为评估病人意识状态和诊断潜在AD病人的两个指标。MMSE与潜在(underlying)AD病理学(pathology)特征以及脑功能进一步恶化(progressive deterioration)相关,ADAS-Cog是进行AD药物试验(drug trial)的金标准。作者此时提出两个问题:1)怎样通过意识评分(cognitive score)如MMSE和ADAS-Cog来预测疾病的发展?2)在疾病发展过程中哪些特征是最具有代表性的特征,这些特征的最小集合是什么?这些可以追溯疾病发展的特征包含在脑部MRI成像,脑脊液(CSF)和一些临床诊断评估(baseline clinical assessments)中。
患者的年龄,性别,受教育程度等潜在风险因子与意识评分之间的关系已经被研究过。通过将一些特征(如基于MRI的脑灰质体积、密度,脑血管的形状,海马区)与MMSE关联起来进行研究也已经存在。并且一些研究表明内侧额叶(medial temporal lobe)的密度和大小以及其他风险因素与6个月AD病人的MMSE有关,所以可以使用这些特征来预测未来一段时间的意识水平。Ashford与Schmitt通过使用”time-index”提出时间函数(horologic function)来测定痴呆(dementia)的速度。基于脑萎缩空间模式(spatial patterns of brain atrophy)提出的SPARE-AD的方法也被提出。通过能量函数进行相关研究的也存在。在这些研究中通常都存在“维数灾难(curse of dimensionality)”的问题。所以一些降维的方法也被使用,PCA降维的显著缺点是所有特诊都被聚合,所以降维后的模型不可解释。相关向量回归(relevance vector regression, RVR)方法将特征选择整合到了训练过程中。但是这些方法都只是在单一时间点对于意识评分进行预测,在AD预测中并没有太大用。
我们提出的多任务学习的方法中,每一个任务都只关心单一时间点的预测。多任务学习旨在通过同时学习多重相关任务,提高模型的泛化能力。多任务学习的关键点是发现任务之间的内在联系。对于本文中的疾病,认为一小部分特征具有代表性是合理的。并且,两个连续时间点所对应的意识评分的差距应该小,所以有必要进行时间平滑。所以L2,1范数惩罚用来选一小部分特征,时间平滑项用来减小连续时刻对应的意识评分之间的差距。本文使用ADNI数据集中的三项:MRI影像,CSF和临床诊断评估分数。

2. 多任务回归方程

在纵向(时间向)AD研究中,本文从多个时间点获取患者意识评分。多任务学习中,在不同任务间的时间平滑信息可以被并入模型中作为先验信息(prior knowledge)。假设在多任务回归问题中,有t个时间点,n个训练样本,每个样本有d个特征。一个简单的线性多任务学习模型可以表示如下:
m i n ( W ) ∣ ∣ X W − Y ∣ ∣ F 2 + θ 1 ∣ ∣ W ∣ ∣ F 2 min_{(W)}||XW-Y||_F^2 + \theta_1||W||_F^2 min(W)XWYF2+θ1WF2
其中X的维度为{n × d} × t,Y的维度为{n × 1} × t, W的维度为d × t。第一项用来衡量训练集上的经验损失(empirical error),第二项用来控制泛化误差。 θ 1 > 0 \theta_1 > 0 θ1>0为正则化参数。 ∣ ∣ . ∣ ∣ F ||.||_F .F是Frobenius范数。上式通常被被称为岭回归(ridge regression)并且具有解析解:
W = ( X T X + θ 1 I ) − 1 X T Y W = (X^TX+\theta_1I)^{-1}X^TY W=(XTX+θ1I)1XTY
其中I是d × d的单位矩阵。上式的缺点为它将不同时间点认为是相互独立的,所以对于本文所考虑的问题其回归效果并不好(没有考虑时间项约束)。

2.1 时间平滑先验

带有时间平滑项的线性回归模型:
m i n ( W ) ∣ ∣ X W − Y ∣ ∣ F 2 + θ 1 ∣ ∣ W ∣ ∣ F 2 + θ 2 ∑ i = 1 t − 1 ∣ ∣ w i − w i + 1 ∣ ∣ F 2 min_{(W)}||XW-Y||_F^2 + \theta_1||W||_F^2+\theta_2\sum_{i=1}^{t-1}||w^i-w^{i+1}||_F^2 min(W)XWYF2+θ1WF2+θ2i=1t1wiwi+1F2
θ 2 ≥ 0 \theta_2≥0 θ20是用来控制时间平滑的正则化参数。时间平滑项又可以表示为:
∑ i = 1 t − 1 ∣ ∣ w i − w i − 1 ∣ ∣ F 2 = ∣ ∣ W H ∣ ∣ F 2 \sum_{i=1}^{t-1}||w^i-w^{i-1}||_F^2=||WH||_F^2 i=1t1wiwi1F2=WHF2
上式中, H H H的维度为t × t-1,定义如下:
H i j = { 1 i = j − 1 i = j + 1 0 o t h e r w i s e H_{ij}=\left\{ \begin{array}{rcl} 1 & & {i = j}\\ -1 & & {i = j + 1}\\ 0 & & {otherwise}\\ \end{array} \right. Hij=110i=ji=j+1otherwise
所以带有时间平滑项的线性回归模型变为:
m i n ( W ) ∣ ∣ X W − Y ∣ ∣ F 2 + θ 1 ∣ ∣ W ∣ ∣ F 2 + θ 2 ∣ ∣ W H ∣ ∣ F 2 min_{(W)}||XW-Y||_F^2 + \theta_1||W||_F^2+\theta_2||WH||_F^2 min(W)XWYF2+θ1WF2+θ2WHF2
上式中也存在解析解,首先上式对于W求偏导并令它等于0:
X T X W − X T + θ 1 W + θ 2 W H H T = 0 , ( X T X + θ 1 I d ) W + W ( θ 2 H H T ) = X T Y , \begin{aligned} X^TXW-X^T+\theta_1W+\theta_2WHH^T&=0,\\ (X^TX+\theta_1I_d)W+W(\theta_2HH^T)&=X^TY, \end{aligned} XTXWXT+θ1W+θ2WHHT(XTX+θ1Id)W+W(θ2HHT)=0,=XTY,
其中 I d I_d Id的维度为d × d。因为 ( X T + θ 1 I d ) (X^T+\theta_1I_d) (XT+θ1Id) θ 2 H H T \theta_2HH^T θ2HHT是对称矩阵,所以它们的特征分解为 Q 1 Λ 1 Q 1 T Q_1\Lambda_1Q_1^T Q1Λ1Q1T Q 2 Λ 2 Q 2 T Q_2\Lambda_2Q_2^T Q2Λ2Q2T,其中 Λ 1 = d i a g ( λ 1 ( 1 ) , λ 1 ( 2 ) , . . . , λ 1 ( d ) ) \Lambda_1=diag(\lambda_1^{(1)}, \lambda_1^{(2)}, …, \lambda_1^{(d)}) Λ1=diag(λ1(1),λ1(2),...,λ1(d)) Λ 2 = d i a g ( λ 2 ( 1 ) , λ 2 ( 2 ) , . . . , λ 2 ( d ) ) \Lambda_2=diag(\lambda_2^{(1)}, \lambda_2^{(2)}, …, \lambda_2^{(d)}) Λ2=diag(λ2(1),λ2(2),...,λ2(d))是它们的特征值,并且 Q 1 Q_1 Q1 Q 2 Q_2 Q2是正交的。带入以上两个方程,得到:
Q 1 Λ 1 Q 1 T W + W Q 2 Λ 2 Q 2 T = X T Y , Λ 1 Q 1 T W Q 2 + Q 1 T W Q 2 Λ 2 = Q 1 T X T Y Q 2 , \begin{aligned} Q_1\Lambda_1Q_1^TW+WQ_2\Lambda_2Q_2^T&=X^TY,\\ \Lambda_1Q_1^TWQ_2+Q_1^TWQ_2\Lambda_2&=Q_1^TX^TYQ_2, \end{aligned} Q1Λ1Q1TW+WQ2Λ2Q2TΛ1Q1TWQ2+Q1TWQ2Λ2=XTY,=Q1TXTYQ2,
W ^ = Q 1 T W Q 2 \hat W=Q_1^TWQ_2 W^=Q1TWQ2 D = Q 1 T X T Y Q 2 D=Q_1^TX^TYQ_2 D=Q1TXTYQ2。则上式变为 Λ 1 W ^ + W ^ Λ 2 = D \Lambda_1 \hat W+\hat W \Lambda_2=D Λ1W^+W^Λ2=D,所以 W ^ \hat W W^为:
W ^ i j = D i , j λ 1 ( i ) + λ 2 ( j ) \hat W_{ij}=\frac {D_{i, j}} {\lambda_1^{(i)}+\lambda_2^{(j)}} W^ij=λ1(i)+λ2(j)Di,j
所以最优权重矩阵为 W ∗ = Q 1 W ^ Q 2 T W^*=Q_1 \hat W Q_2^T W=Q1W^Q2T

2.2 解决数据不完整问题

本文尝试将不完整的数据包含进训练数据集中,不完整训练数据指的是部分患者的意识评分在不同时间点可能不完整,此时,带有时间平滑约束的模型不存在解析解。解决这个问题,首先定义一个矩阵 S i , j S_{i,j} Si,j,维度为n × t, i i i为样本序号, j j j为时间点,具体形式为:
S i , j = { 1 v a l u e   e x i s t s 0 o t h e r w i s e S_{i,j}=\left\{ \begin{array}{rcl} 1 && {value\ exists}\\ 0 && {otherwise}\\ \end{array} \right. Si,j={
10value existsotherwise

则改进后的公式为:
m i n ( W ) ∣ ∣ S ⊙ ( X W − Y ) ∣ ∣ F 2 + θ 1 ∣ ∣ W ∣ ∣ F 2 + θ 2 ∣ ∣ W H ∣ ∣ F 2 min_{(W)}||S \odot (XW-Y)||_F^2 + \theta_1||W||_F^2+\theta_2||WH||_F^2 min(W)S(XWY)F2+θ1WF2+θ2WHF2
其中 ⊙ \odot 为矩阵点乘。定义 P r ( . ) P_r(.) Pr(.)为矩阵行数选择。 P r ( A ) P_r(A) Pr(A)只包括 r i ̸ = 0 r_i \not = 0 ri̸=0 A i A_i Ai,其中 A i A_i Ai A A A的第 i i i行。再令 S i S^i Si S S S的第 i i i列。则可以得到:
X ( i ) = P S i ( X ) , y ( i ) = P S i ( X i ) \begin{aligned} X_{(i)}&=P_{S^i}(X),\\ y_{(i)}&=P_{S^i}(X^i) \end{aligned} X(i)y(i)=PSi(X),=PSi(Xi)
将改进后的公式对于 w i w^i wi求导并置为0,得到:
A w i − 1 + M i w i + A w i + 1 = T i Aw^{i-1}+M_iw^i+Aw^{i+1}=T_i Awi1+Miwi+Awi+1=Ti
其中:
A = − θ 2 I d , M i = X ( i ) T X ( i ) + θ 1 I d + 2 θ 2 I d , T i = X ( i ) T y ( i ) \begin{aligned} A &= – \theta_2I_d,\\ M_i &= X_{(i)}^TX_{(i)} + \theta_1I_d + 2 \theta_2I_d,\\ T_i &= X_{(i)}^Ty_{(i)} \end{aligned} AMiTi=θ2Id,=X(i)TX(i)+θ1Id+2θ2Id,=X(i)Ty(i)

2.3 LASSO时间群正则

ANDI数据集中包含的数据维度太大,会导致维度灾难。传统降维方法不适合,如PCA会导致模型的不可解释性。传统的特征挑选方法也不适合存在缺失数据的多任务回归。本文提出基于 ℓ 2 , 1 \ell_{2, 1} 2,1范数的惩罚项用于特征选择,目的是希望一小部分具有代表性的特征可以被选择出来。Lasso群正则可以保证所有的回归模型可以共享相同的一部分特征。在之前的公式中加入群正则后,得到:
m i n ( W ) ∣ ∣ S ⊙ ( X W − Y ) ∣ ∣ F 2 + θ 1 ∣ ∣ W ∣ ∣ F 2 + θ 2 ∣ ∣ W H ∣ ∣ F 2 + δ ∣ ∣ W ∣ ∣ 2 , 1 min_{(W)}||S \odot (XW-Y)||_F^2 + \theta_1||W||_F^2+\theta_2||WH||_F^2+\delta||W||_{2,1} min(W)S(XWY)F2+θ1WF2+θ2WHF2+δW2,1
此时 ∣ ∣ W ∣ ∣ 2 , 1 = ∑ i = 1 d ∑ j = 1 t W i , j 2 ||W||_{2,1}=\sum_{i=1}^d \sqrt{\sum_{j=1}^tW_{i,j}^2} W2,1=i=1dj=1tWi,j2
。注意这边的2范数并不是矩阵范数(L2谱范数),因为对于 ∣ ∣ W ∣ ∣ 2 , 1 ||W||_{2,1} W2,1是逐行来求,所以这边依旧是向量范数。 δ \delta δ是正则化参数。并且特征先被L2约束,再被L1约束。由于上式同时包含平滑约束和非平滑约束,所以可以用梯度下降进行优化求解。

2.3.1 纵向(时间项)稳定特征选择

首先一个需要解决一个问题,选择一定数量的特征用于模型训练。交叉验证可以用于特征选择,但是通常它会需要超过需求数目的特征。本文使用了稳定性选择的方法(Stability Selection)。实验发现所选出的特征对于 θ 1 \theta_1 θ1 θ 2 \theta_2 θ2不敏感,所以主要精力放在可以控制模型稀疏性的参数 δ \delta δ上。
具体做法如下:首先记 K K K为特征的序号, Δ \Delta Δ为正则化参数 δ \delta δ的集合, γ \gamma γ为迭代次数。首先无放回随机挑选占总体样本数目一半的子样本 B ( j ) B_{(j)} B(j) B ( j ) = { B ( j ) X , B ( j ) Y } B_{(j)}=\{B_{(j)}^X, B_{(j)}^Y \} B(j)={
B(j)X,B(j)Y}
,对于任意给定的 δ > 0 \delta > 0 δ>0,记 W ~ ( j ) \tilde{W}^{(j)} W~(j)为模型在 B ( j ) B_{(j)} B(j)上的最优解。记 U δ ( B ( j ) ) = { k : W ~ ( j ) ̸ = 0 } U^{\delta}(B_{(j)})=\{k:\tilde{W}^{(j)} \not =0 \} Uδ(B(j))={
k:
W~(j)̸=0}
W ~ ( j ) \tilde{W}^{(j)} W~(j)挑选的特征。重复 γ \gamma γ次,对于每一个特征都会得到特征稳定性 ∏ ^ k δ \hat{\small \prod}_k^\delta ^kδ
∏ ^ k δ = ∑ j = 1 γ I ( k ∈ U δ ( B ( j ) ) ) γ \hat{\small \prod}_k^\delta=\sum_{j=1}^\gamma \frac {I(k \in U^{\delta}(B_{(j)}))} {\gamma} ^kδ=j=1γγI(kUδ(B(j)))
其中:
I ( c ) = { 1 c i s t r u e 0 o t h e r w i s e I(c)=\left\{ \begin{array}{rcl} 1 && {c\quad is\quad true}\\ 0 && {otherwise}\\ \end{array} \right. I(c)={
10cistrueotherwise

这里 ∏ ^ k δ \hat{\small \prod}_k^\delta ^kδ其实计算的是特征k被选中的分数。对于所有的 δ ∈ Δ \delta \in \Delta δΔ,重复以上过程。则对于每一特征都会有一个稳定性分数: S ( k ) = max ⁡ δ ∈ Δ ( ∏ ^ k δ ) S(k)=\max_{\delta \in \Delta}(\hat{\small \prod}_k^\delta) S(k)=maxδΔ(^kδ)。对于稳定特征集合可以定义为: U ^ s t a b l e = { k : S ( k ) 在 K 中 的 前 η 个 } \hat U^{stable}=\{k: S(k)在K中的前\eta个\} U^stable={
k:
S(k)Kη}
,或者可以设定阈值 π t h r \pi_{thr} πthr,则稳定特征集合可以表示为 U ^ s t a b l e = { k : S ( k ) ≥ π t h r } \hat U^{stable}=\{k: S(k) \ge \pi_{thr}\} U^stable={
k:
S(k)πthr}
。本文实验证明稳定性分数排前20的特征可以满足本文回归模型的需求。

2.4 本文算法

传统Lasso可能会导致局部最优解。本文提出的算法分为两个阶段。在第一阶段中,使用纵向稳定性特征选择得到 U ^ s t a b l e \hat U^{stable} U^stable。在第二阶段中,基于 U ^ s t a b l e \hat U^{stable} U^stable使用带有时间平滑正则回归。

3. 实验

实验数据集为ADNI,对比算法为岭回归。由于患者数目并不是很多,所以使用留一法。5折交叉验证用于挑选参数( 1 0 − 3 10^{-3} 103 1 0 3 10^{3} 103,本文模型参数为 θ 1 \theta_1 θ1 θ 2 \theta_2 θ2),岭回归参数为 θ 1 \theta_1 θ1。P值(correlation significance)和R值(correlation coefficient)作为评价指标。好的模型R值高,P值低。
数据集共计7种,分别为脑脊液特征(CSF,记为C),MRI影像特征(MRI,记为M),患者个人信息及之前意识水平特征(META,记为E)以及它们的集合:CE,EM,CM和CEM。MRI特征主要分为5类:平均皮质厚度(cortical thickness average, CTA),皮质厚度标准差(cortical thickness standard deviation, CTStd),分割后的皮质体积(volume of cortical parcellation, Vol. Cort.),分割后的白质体积(volume of white matter parcellation, Vol. WM.)和表面面积(surface area, Surf. A.),共计313维。

4. 结论

实验结果证明多任务学习效果较好,未来考虑使用非线性模型。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/127981.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • TS助手 v3.52 视频网站下载工具,网页视频下载神器

    TS助手 v3.52 视频网站下载工具,网页视频下载神器TS的全称则是TransportStream,即传输流,DVD节目中的MPEG2格式,是MPEG2-PS,MPEG2-TS格式的特点就是要求从视频流的任一片段开始都是可以独立解码的,m3u8是一个TS切片列表文件,它记录视频的每个切片的时长与顺序。现主流视频网站都采用这种模式。正因为如此,很多网友遇到这种TS传输流的视频,就有点束手无策了,今天给大家带来的这款TS助手可以轻松帮大家解决视频…

  • navicat15永久激活码最新【在线注册码/序列号/破解码】

    navicat15永久激活码最新【在线注册码/序列号/破解码】,https://javaforall.cn/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧!

  • Hadoop FairScheduler

    Hadoop FairScheduler

    2021年11月27日
  • POJ 1182 :食物链(并查集)[通俗易懂]

    POJ 1182 :食物链(并查集)

  • jboss 配置文件_黑果小兵安装教程

    jboss 配置文件_黑果小兵安装教程一、Jboss下载:  1、点击 http://jbossas.jboss.org/downloads/找到合适的版本下载;  我这里是用的Jboss-as-7.1.1.Final版本,算是比较新的一个版本。    二、Jboss安装:  1、首先将下好的Jboss解压到自己想要存放的位置;  2、配置环境变量(非必要步骤),建议还是将环境变量配好,便于dos中命令操作;   …

  • 简述最优二叉树(赫夫曼树)[通俗易懂]

    简述最优二叉树(赫夫曼树)[通俗易懂]什么是哈夫曼树:给定N个权值作为N个叶子结点,构造一棵二叉树,若该树的带权路径长度达到最小,称这样的二叉树为最优二叉树,也称为哈夫曼树(HuffmanTree)。哈夫曼树是带权路径长度最短的树,权值较大的结点离根较近。哈夫曼树被用来进行哈夫曼编码,下面来介绍哈夫曼编码:假设需要传送的电文为“ABACCDA”,它只有四种字符,只需要用两个字符的串就可以分辨,假设A,B,C,D的编码分别是00,01,10,11,则该电文的编码便是:“00010010101100”,总长为14位,对方接收时,只需要二位一

    2022年10月24日

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号