<div dir="ltr"><div><div>I am trying to run tophat software mapping ~38 Gb of RNA-seq reads in fastq format to a reference genome on a 2-node cluster with the following properties:<br>NODE_IMAGE_ID = ami-999d49f0<br>NODE_INSTANCE_TYPE = c1.xlarge<br>
<br></div><div>Question: How many CPUs are there on this type of cluster?<br></div><div><br></div>Here is a df -h listing of my cluster:<br>root@master:~# df -h<br>Filesystem            Size  Used Avail Use% Mounted on<br>
/dev/xvda1            9.9G  9.9G     0 100% /<br>udev                  3.4G  4.0K  3.4G   1% /dev<br>tmpfs                 1.4G  184K  1.4G   1% /run<br>none                  5.0M     0  5.0M   0% /run/lock<br>none                  3.5G     0  3.5G   0% /run/shm<br>
/dev/xvdb1            414G  199M  393G   1% /mnt<br>/dev/xvdz              99G   96G     0 100% /home/large-data<br>/dev/xvdy              20G  5.3G   14G  29% /home/genomic-data<br></div><div><br>I created a third volume for the output that does not appear in this list but is listed in my config file and which I determined I can read and write to. I wrote the output files to this larger empty volume. <br>
</div><div><br></div><div>I can&#39;t get tophat to run to completion. It appears to be generating truncated intermediate files. Here is the tophat output:<br><br>[2013-08-01 17:34:19] Beginning TopHat run (v2.0.9)<br>-----------------------------------------------<br>
[2013-08-01 17:34:19] Checking for Bowtie<br>                  Bowtie version:        2.1.0.0<br>[2013-08-01 17:34:21] Checking for Samtools<br>                Samtools version:        0.1.19.0<br>[2013-08-01 17:34:21] Checking for Bowtie index files (genome)..<br>
[2013-08-01 17:34:21] Checking for reference FASTA file<br>[2013-08-01 17:34:21] Generating SAM header for /home/genomic-data/data/Nemve1.allmasked<br>        format:          fastq<br>        quality scale:   phred33 (default)<br>
[2013-08-01 17:34:27] Reading known junctions from GTF file<br>[2013-08-01 17:36:56] Preparing reads<br>         left reads: min. length=50, max. length=50, 165174922 kept reads (113024 discarded)<br>[2013-08-01 18:24:07] Building transcriptome data files..<br>
[2013-08-01 18:26:43] Building Bowtie index from Nemve1.allmasked.fa<br>[2013-08-01 18:29:01] Mapping left_kept_reads to transcriptome Nemve1.allmasked with Bowtie2<br>[2013-08-02 07:34:40] Resuming TopHat pipeline with unmapped reads<br>
[bam_header_read] EOF marker is absent. The input is probably truncated.<br>[bam_header_read] EOF marker is absent. The input is probably truncated.<br>[2013-08-02 07:34:41] Mapping left_kept_reads.m2g_um to genome Nemve1.allmasked with Bowtie2<br>
[main_samview] truncated file.<br>[main_samview] truncated file.<br>[bam_header_read] EOF marker is absent. The input is probably truncated.<br>[bam_header_read] invalid BAM binary header (this is not a BAM file).<br>[main_samview] fail to read the header from &quot;/home/results-data/top-results-8-01-2013/topout/tmp/left_kept_reads.m2g\<br>
_um_unmapped.bam&quot;.<br>[2013-08-02 07:34:54] Retrieving sequences for splices<br>[2013-08-02 07:35:16] Indexing splices<br>Warning: Empty fasta file: &#39;/home/results-data/top-results-8-01-2013/topout/tmp/segment_juncs.fa&#39;<br>
Warning: All fasta inputs were empty<br>Error: Encountered internal Bowtie 2 exception (#1)<br>Command: /home/genomic-data/bin/bowtie2-2.1.0/bowtie2-build /home/results-data/top-results-8-01-2013/topout/tmp/segm\<br>ent_juncs.fa /home/results-data/top-results-8-01-2013/topout/tmp/segment_juncs<br>
        [FAILED]<br>Error: Splice sequence indexing failed with err =1<br><br></div><div>Questions:<br><br>Am I running out of memory?<br></div><div><br></div><div>How much RAM does the AMI have and can I make that larger?<br>
<br></div><div>No matter what configuration starcluster I define, I can&#39;t seem to make my root directory larger that 10Gb and it appears to full. <br><br></div><div>Can I make the root directory larger that 10GB?<br><br>
</div><div>Thanks!<br></div><div><div><div><div><br>-- <br><div dir="ltr"><div>Manuel J Torres, PhD<br></div>219 Brannan Street Unit 6G<br><div>San Francisco, CA 94107<br>VOICE: 415-656-9548</div></div>
</div></div></div></div></div>