“位置感知”将序列与字母注释对齐

library(Biostrings) p <- DNAString("ATCAT") s <- DNAString("ATGCAT") s_annot <- "135198" x <- pairwiseAlignment(pattern = p, subject = s) aligned(x) # A DNAStringSet instance of length 1 # width seq # [1] 6 AT-CAT as.character(x) # [1] "AT-CAT" as.matrix(x) # [,1] [,2] [,3] [,4] [,5] [,6] # [1,] "A" "T" "-" "C" "A" "T"

getSlots("DNAString") # shared offset length elementMetadata metadata # "SharedRaw" "integer" "integer" "DataTable_OR_NULL" "list" # just an idea, non-working code s@metadata <- unlist(strsplit(s_annot , "")) x <- pairwiseAlignment(pattern = p, subject = s) metadata(x) # [[1]] # [1] "1" "3" "-" "1" "9" "8"

2条回答

网友

1楼 · 编辑于 2024-10-06 11:23:36

一种可能的解决办法：

dna_fun <- function(s, p, a) {
  s <- strsplit(s, "")[[1]]
  p <- strsplit(p, "")[[1]]
  a <- strsplit(a, "")[[1]]
  ls <- length(s)
  lp <- length(p)

  r <- lapply(c(1,seq(lp)), function(x) {
    v <- rep(1, 5)
    v[x] <- 2
    v
  })

  mat <- sapply(r, rep, x = p)
  tfm <- mat == matrix(rep(s, ls), ncol = ls)
  m <- which.max(colSums(tfm))

  p2 <- mat[, m]
  p2[!tfm[,m]] <- "-"

  a[!tfm[,m]] <- "-"

  p2 <- paste(p2, collapse = "")
  a <- paste(a, collapse = "")

  return(list(p2, a))
}

与：

dna_fun(s1, s2, annot)

你会得到：

[[1]]
[1] "AT-CAT"

[[2]]
[1] "13-198"

如果有相应的向量，可以将Map与dna_fun-函数一起使用：

s11 <- c("ATGCAT","ATCGAT")
s22 <- c("ATCAT","ATCAT")
annot2 <- c("135198","145892")

lm <- Map(dna_fun, s11, s22, annot2)

data.table::rbindlist(lm, idcol = "dna")

这使得：

      dna     V1     V2
1: ATGCAT AT-CAT 13-198
2: ATCGAT ATC-AT 145-92

数据：

s1 <- "ATGCAT"
s2 <- "ATCAT"
annot <- "135198"

网友

2楼 · 编辑于 2024-10-06 11:23:36

根据要求，Biopython解决方案：

from Bio import Align

p = "ATCAT"
s = "ATGCAT"
s_annot = "135198"

aligner = Align.PairwiseAligner()
alignment = str(aligner.align(p, s)[0]).split()
middle = alignment.pop(1)
alignment.append("".join(c if m == "|" else m for c, m in zip(s_annot, middle)))

print("\n".join(alignment))

输出：

AT-CAT
ATGCAT
13-198

相关问题更多 >

编程相关推荐

热门问题

热门文章