改写libsvmread读取多标记数据集

首页 > 代码库 > 改写libsvmread读取多标记数据集

改写libsvmread读取多标记数据集

2024-08-10 15:01:56 218人阅读

　　在libsvm和liblinear软件包里有一个C函数叫libsvmread，这个函数的作用是把如下格式的文本文件\begin{align*} 1 & \ \ *:* \ \ *:* \\ -1 & \ \ *:* \ \ *:* \end{align*}读取进MATLAB，将第一列的$1,-1$串存成一个类标记向量，之后的特征存成矩阵。

　　但是有一些多标记数据集是保存成如下格式的\begin{align*} 1,3,6 & \ \ *:* \ \ *:* \\ 0,3,8 & \ \ *:* \ \ *:* \end{align*}这里样本的类标记不再只是单个$1$或$-1$了，而是若干个数字，所有样本的类标记也构成了一个矩阵，libsvmread也就不能用了。今天笔者简单改了下libsvmread的代码，让它也能用来读取多标记的数据集了(当然保证了向下兼容，多类和两类数据集也还是可以读的)。

　　由于有的数据集很大，样本数很多，存一个full的类标记矩阵内存是吃不消的，而且注意到类标记本身一般是很稀疏的，因此存成稀疏矩阵是比较合理的，于是就涉及MATLAB稀疏矩阵的操作了。不得不说，MATLAB稀疏矩阵的存储方式绝对是反人类思维的，笔者看了半天才弄明白是怎么回事。

　　以人的思维来看，稀疏矩阵可以做成一个三元组$(r,c,d)$的数组，其中$r$表示非零元素的行号，$c$表示列号，$d$表示数值就行了。例如对于$3 \times 3$的稀疏矩阵\begin{align*} \begin{bmatrix} 1 & 0 & 0 \\ 0 & 3 & 4 \\ 2 & 0 & 0 \end{bmatrix} \end{align*}存成$(1,1,1),(2,2,3),(2,3,4),(3,1,2)$不就好了，若共有$k$个非零元素，总共也就是$O(3k)$的存储开销。但是MATLAB不是如此，它为每个稀疏矩阵准备了三个整型数组指针，分别是$Pr$、$Ir$和$Jc$，其中$Pr$按照列优先的顺序存储所有非零元素，还是对于上面那个矩阵的话，$Pr$就是$[1,2,3,4]$，显然其长度等于非零元素个数；$Ir$同样按照列优先的顺序，存储所有非零元素的行号，对于上面那个矩阵的话就是$[0,2,1,1]$(C语言里数组从$0$开始)，因此其长度也等于非零元素个数；最古怪的就是$Jc$了，$Jc$的长度是$N+1$，其中$N$是矩阵的列数，第$i$个元素表示矩阵第$i$列的第一个非零元素在$Pr$里的位置，就上面那个矩阵而言，第$0$列第一个非零元素是$1$，其在$Pr$里的位置是$0$，因此$Jc[0]=0$，第$1$列第一个非零元素是$3$，其在$Pr$里的位置是$2$，因此$Jc[1]=2$，同理可知$Jc[2]=3$，若第$i$列没有非零元素，则$Jc[i]$是前一列最后一个非零元素在$Pr$里的位置$+1$，若前一列也没有非零元素，则$Jc[i]=Jc[i-1]$，最后$Jc[3]=4$表示非零元素总个数。由于稀疏矩阵的$Pr$、$Ir$和$Jc$的遍历是列优先，因此libsvmread里存储特征矩阵时也是一列对应一个样本，全部处理完后做个转置才输出的。

　　另一个改动是输出变量变成了三个，除了libsvmread原本的那两个外，笔者加了一个$2$维向量，用来记录类标记的最小值和最大值，目的是为了处理那些分成若干个文件的数据集，有些类别标记可能只出现在一个文件中，其他文件没有，这样最后将所有数据合并起来时就会发现大家的类标记个数不一样，加上最小值和最大值就方便弄清楚到底是哪里出了问题。最后放上修改的libsvmread的文件的度盘地址，需要的人自取之：http://pan.baidu.com/s/1dDF427B。

改写libsvmread读取多标记数据集

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 改写libsvmread读取多标记数据集

改写libsvmread读取多标记数据集

看完仍有疑问？有类似问题直接问程序猿