<html>

  <head>

    <meta content="text/html; charset=ISO-8859-1"

      http-equiv="Content-Type">

  </head>

  <body bgcolor="#FFFFFF" text="#000000">

    <br>

    -----BEGIN PGP SIGNED MESSAGE-----<br>

    Hash: SHA1<br>

    <br>

    OK, in this case running 'source /etc/profile' should fix the issue

    if it ever happens again - no need to terminate the cluster.<br>

    <br>

    In any event, glad you got things working. Would you mind sharing

    the exact settings/procedures you used to fix the issue? This should

    probably be tunable from StarCluster...<br>

    <br>

    ~Justin<br>

    <br>

    <br>

    On 12/5/11 6:16 PM, Amirhossein Kiani wrote:<br>

    <span style="white-space: pre;">&gt; Thanks Justin... I think the

      issue was I had "sudo su" 'ed on the instance and qconf was not on

      the roots path...<br>

      &gt; I teared down my cluster and creating a new one...<br>

      &gt;<br>

      &gt; On Dec 5, 2011, at 3:13 PM, Justin Riley wrote:<br>

      &gt;<br>

      &gt; Amir,<br>

      &gt;<br>

      &gt; qconf is included in the StarCluster AMIs so there must be

      some other<br>

      &gt; issue you're facing. Also, I wouldn't recommend installing

      the<br>

      &gt; gridengine packages from ubuntu as they're most likely not

      compatible<br>

      &gt; with StarCluster's bundled version in /opt/sge6 as you're

      seeing.<br>

      &gt;<br>

      &gt; With that said which AMI are you using and what does "echo

      $PATH" look<br>

      &gt; like when you login as root (via sshmaster)?<br>

      &gt;<br>

      &gt; ~Justin<br>

      &gt;<br>

      &gt;<br>

      &gt; On 12/05/2011 06:07 PM, Amirhossein Kiani wrote:<br>

      &gt; &gt;&gt;&gt; So I tried this and couldn't run qconf because

      it was not<br>

      &gt; &gt;&gt;&gt; installed. I then tried installing it using

      apt-get and specified<br>

      &gt; &gt;&gt;&gt; default for the cell name and "master" for the

      master name which<br>

      &gt; &gt;&gt;&gt; is the default for the SGE created using

      StarCluster.<br>

      &gt; &gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt; However now when I want to use qconf, it says:<br>

      &gt; &gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt; root@master:/data/stanford/aligned# qconf

      -msconf error: commlib<br>

      &gt; &gt;&gt;&gt; error: got select error (Connection refused)

      unable to send<br>

      &gt; &gt;&gt;&gt; message to qmaster using port 6444 on host

      "master": got send<br>

      &gt; &gt;&gt;&gt; error<br>

      &gt; &gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt; Any idea how i could configure it to work?<br>

      &gt; &gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt; Many thanks, Amir<br>

      &gt; &gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt; On Dec 5, 2011, at 1:52 PM, Rayson Ho wrote:<br>

      &gt; &gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt; Hi Amirhossein,<br>

      &gt; &gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt; I was working on a few other things, and I

      just saw your message<br>

      &gt; &gt;&gt;&gt;&gt; -- I have to spend less time on mailing list

      discussions these<br>

      &gt; &gt;&gt;&gt;&gt; days due to the number of things that I

      needed to develop and/or<br>

      &gt; &gt;&gt;&gt;&gt; fix, and I am also working on a new patch

      release of OGS/Grid<br>

      &gt; &gt;&gt;&gt;&gt; Engine 2011.11. Luckily, I just found the

      mail that exactly<br>

      &gt; &gt;&gt;&gt;&gt; solves the issue you are encountering:<br>

      &gt; &gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt; <a class="moz-txt-link-freetext" href="http://markmail.org/message/zdj5ebfrzhnadglf">http://markmail.org/message/zdj5ebfrzhnadglf</a><br>

      &gt; &gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt; For more info, see the

      "job_load_adjustments" and<br>

      &gt; &gt;&gt;&gt;&gt; "load_adjustment_decay_time" parameters in

      the Grid Engine<br>

      &gt; &gt;&gt;&gt;&gt; manpage:<br>

      &gt; &gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;

      <a class="moz-txt-link-freetext" href="http://gridscheduler.sourceforge.net/htmlman/htmlman5/sched_conf.html">http://gridscheduler.sourceforge.net/htmlman/htmlman5/sched_conf.html</a><br>

      &gt; &gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;<br>

      &gt; Rayson<br>

      &gt; &gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt; ================================= Grid

      Engine / Open Grid<br>

      &gt; &gt;&gt;&gt;&gt; Scheduler

      <a class="moz-txt-link-freetext" href="http://gridscheduler.sourceforge.net/">http://gridscheduler.sourceforge.net/</a><br>

      &gt; &gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt; Scalable Grid Engine Support Program<br>

      &gt; &gt;&gt;&gt;&gt; <a class="moz-txt-link-freetext" href="http://www.scalablelogic.com/">http://www.scalablelogic.com/</a><br>

      &gt; &gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt; ________________________________ From:

      Amirhossein Kiani<br>

      &gt; &gt;&gt;&gt;&gt; <a class="moz-txt-link-rfc2396E" href="mailto:amirhkiani@gmail.com">&lt;amirhkiani@gmail.com&gt;</a> To: Rayson Ho

      <a class="moz-txt-link-rfc2396E" href="mailto:raysonlogin@yahoo.com">&lt;raysonlogin@yahoo.com&gt;</a> Cc:<br>

      &gt; &gt;&gt;&gt;&gt; Justin Riley

      <a class="moz-txt-link-rfc2396E" href="mailto:justin.t.riley@gmail.com">&lt;justin.t.riley@gmail.com&gt;</a>; <a class="moz-txt-link-rfc2396E" href="mailto:starcluster@mit.edu">"starcluster@mit.edu"</a><br>

      &gt; &gt;&gt;&gt;&gt; <a class="moz-txt-link-rfc2396E" href="mailto:starcluster@mit.edu">&lt;starcluster@mit.edu&gt;</a> Sent: Friday,

      December 2, 2011 6:36 PM<br>

      &gt; &gt;&gt;&gt;&gt; Subject: Re: [StarCluster] AWS instance runs

      out of memory and<br>

      &gt; &gt;&gt;&gt;&gt; swaps<br>

      &gt; &gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt; Dear Rayson,<br>

      &gt; &gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt; Did you have a chance to test your solution

      on this? Basically,<br>

      &gt; &gt;&gt;&gt;&gt; all I want is to prevent a job from running

      on an instance if it<br>

      &gt; &gt;&gt;&gt;&gt; does not have the memory required for the

      job.<br>

      &gt; &gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt; I would very much appreciate your help!<br>

      &gt; &gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt; Many thanks, Amir<br>

      &gt; &gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt; On Nov 21, 2011, at 10:29 AM, Rayson Ho

      wrote:<br>

      &gt; &gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt; Amir,<br>

      &gt; &gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt; You can use qhost to list all the node

      and resources that each<br>

      &gt; &gt;&gt;&gt;&gt;&gt; node has.<br>

      &gt; &gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt; I have an answer to the memory issue,

      but I have not have time<br>

      &gt; &gt;&gt;&gt;&gt;&gt; to properly type up a response and test

      it.<br>

      &gt; &gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt; Rayson<br>

      &gt; &gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt; ________________________________ From:

      Amirhossein Kiani<br>

      &gt; &gt;&gt;&gt;&gt;&gt; <a class="moz-txt-link-rfc2396E" href="mailto:amirhkiani@gmail.com">&lt;amirhkiani@gmail.com&gt;</a> To: Justin

      Riley<br>

      &gt; &gt;&gt;&gt;&gt;&gt; <a class="moz-txt-link-rfc2396E" href="mailto:justin.t.riley@gmail.com">&lt;justin.t.riley@gmail.com&gt;</a> Cc:

      Rayson Ho<br>

      &gt; &gt;&gt;&gt;&gt;&gt; <a class="moz-txt-link-rfc2396E" href="mailto:rayrayson@gmail.com">&lt;rayrayson@gmail.com&gt;</a>;

      <a class="moz-txt-link-rfc2396E" href="mailto:starcluster@mit.edu">"starcluster@mit.edu"</a><br>

      &gt; &gt;&gt;&gt;&gt;&gt; <a class="moz-txt-link-rfc2396E" href="mailto:starcluster@mit.edu">&lt;starcluster@mit.edu&gt;</a> Sent:

      Monday, November 21, 2011 1:26 PM<br>

      &gt; &gt;&gt;&gt;&gt;&gt; Subject: Re: [StarCluster] AWS instance

      runs out of memory and<br>

      &gt; &gt;&gt;&gt;&gt;&gt; swaps<br>

      &gt; &gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt; Hi Justin,<br>

      &gt; &gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt; Many thanks for your reply. I don't have

      any issue with<br>

      &gt; &gt;&gt;&gt;&gt;&gt; multiple jobs running per node if there

      is enough memory for<br>

      &gt; &gt;&gt;&gt;&gt;&gt; them. But since I know about the nature

      of my jobs, I can<br>

      &gt; &gt;&gt;&gt;&gt;&gt; predict that only one per node should be

      running. How can I<br>

      &gt; &gt;&gt;&gt;&gt;&gt; see how much memory does SGE think each

      node have? Is there a<br>

      &gt; &gt;&gt;&gt;&gt;&gt; way to list that?<br>

      &gt; &gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt; Regards, Amir<br>

      &gt; &gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt; On Nov 21, 2011, at 8:18 AM, Justin

      Riley wrote:<br>

      &gt; &gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt; Hi Amir,<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt; Sorry to hear you're still having

      issues. This is really<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt; more of an SGE issue more than

      anything but perhaps Rayson<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt; can give a better insight as to

      what's going on. It seems<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt; you're using 23G nodes and 12GB

      jobs. Just for drill does<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt; 'qhost' show each node having 23GB?

      Definitely seems like<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt; there's a boundary issue here given

      that two of your jobs<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt; together approaches the total memory

      of the machine (23GB).<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt; Is it your goal only to have one job

      per<br>

      &gt; &gt;&gt;&gt;&gt; node?<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt; ~Justin<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt; On 11/16/2011 09:00 PM, Amirhossein

      Kiani wrote:<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; Dear all,<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; I even wrote the queue

      submission script myself, adding<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; the

      mem_free=MEM_NEEDED,h_vmem=MEM_MAX parameter but<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; sometimes two jobs are randomly

      sent to one node that does<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; not have enough memory for two

      jobs and they start running.<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; I think the SGE should check on

      the instance memory and not<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; run multiple jobs on a machine

      when the memory requirement<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; for the jobs in total is above

      the memory available in the<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; node (or maybe there is a bug in

      the current check)<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; Amir<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; On Nov 8, 2011, at 5:37 PM,

      Amirhossein Kiani wrote:<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; Hi Justin,<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; I'm using a third-party tool

      to submit the jobs but I am<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; setting the hard<br>

      &gt; &gt;&gt;&gt;&gt; limit.<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; For all my jobs I have

      something like this for the job<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; description:<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; [root@master test]# qstat -j

      1<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;

      ==============================================================<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; job_number: 1<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; exec_file: job_scripts/1<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; submission_time: Tue Nov 8

      17:31:39 2011<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; owner: root uid: 0 group:<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; root gid: 0<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt; sge_o_home: /root<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; sge_o_log_name: root

      sge_o_path:<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;

/home/apps/bin:/home/apps/vcftools_0.1.7/bin:/home/apps/tabix-0.2.5:/home/apps/BEDTools-Version-2.14.2/bin:/home/apps/samtools/bcftools:/home/apps/samtools:/home/apps/bwa-0.5.9:/home/apps/Python-2.7.2:/usr/lib/jvm/java-1.6.0-openjdk-1.6.0.0.x86_64/bin:/home/apps/sjm-1.0/bin:/home/apps/hugeseq/bin:/usr/lib64/openmpi/1.4-gcc/bin:/usr/kerberos/sbin:/usr/kerberos/bin:/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin:/usr/local/cuda/bin:/usr/local/cuda/computeprof/bin:/usr/local/cuda/open64/bin:/opt/sge6/bin/lx24-amd64:/root/bin<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; sge_o_shell: /bin/bash<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; sge_o_workdir:<br>

      &gt; &gt;&gt;&gt;&gt; /data/test<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; sge_o_host: master account:

      sge<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; stderr_path_list:<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;

      NONE:master:/data/log/SAMPLE.bin_aln-chr1_e111108173139.txt<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; *hard resource_list: h_vmem=12000M*<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; mail_list: root@master

      notify: FALSE<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; job_name:

      SAMPLE.bin_aln-chr1<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; stdout_path_list:<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;

      NONE:master:/data/log/SAMPLE.bin_aln-chr1_o111108173139.txt<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; jobshare:<br>

      &gt; &gt;&gt;&gt;&gt; 0<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; hard_queue_list: all.q

      env_list: job_args:<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;

      -c,/home/apps/hugeseq/bin/hugeseq_mod.sh bin_sam.sh chr1<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; /data/chr1.bam

      /data/bwa_small.bam &amp;&amp;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;

      /home/apps/hugeseq/bin/hugeseq_mod.sh sam_index.sh<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; /data/chr1.bam script_file:

      /bin/sh<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; verify_suitable_queues: 2

      scheduling info:<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; (Collecting of scheduler job

      information is turned off)<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; And I'm using the Cluster

      GPU Quadruple Extra Large<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; instances which<br>

      &gt; &gt;&gt;&gt;&gt; I<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; think has about 23G memory.

      The issue that I see is too<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; many of the jobs are

      submitted. I guess I need to set<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; the mem_free too? (the

      problem is the tool im using does<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; not seem to have a way tot

      set that...)<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; Many thanks, Amir<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; On Nov 8, 2011, at 5:47 AM,

      Justin Riley wrote:<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; Hi Amirhossein,<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; Did you specify the memory usage

      in your job script or at<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; command line and what parameters

      did you use exactly?<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; Doing a quick search I believe

      that the following will<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; solve the problem although I

      haven't tested myself:<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; $ qsub -l

      mem_free=MEM_NEEDED,h_vmem=MEM_MAX yourjob.sh<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; Here, MEM_NEEDED and MEM_MAX are

      the lower and<br>

      &gt; &gt;&gt;&gt;&gt; upper bounds for your<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; job's memory requirements.<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; HTH,<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; ~Justin<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; On 7/22/64 2:59 PM, Amirhossein

      Kiani wrote:<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; Dear Star Cluster users,<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; I'm using Star Cluster to

      set up an SGE and when I ran<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; my job list,<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; although I had specified the

      memory usage for each job, it<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; submitted too many jobs on my

      instance and my instance<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; started going out of memory and

      swapping.<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; I wonder if anyone knows how

      I could tell the SGE the<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; max memory to<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; consider when submitting jobs to

      each node so that it<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; doesn't run the jobs if there is

      not enough memory<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; available on a node.<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; I'm using the Cluster GPU

      Quadruple Extra Large<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; instances.<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; Many thanks, Amirhossein

      Kiani<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;

      _______________________________________________<br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; StarCluster mailing list

      <a class="moz-txt-link-abbreviated" href="mailto:StarCluster@mit.edu">StarCluster@mit.edu</a><br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;

      <a class="moz-txt-link-freetext" href="http://mailman.mit.edu/mailman/listinfo/starcluster">http://mailman.mit.edu/mailman/listinfo/starcluster</a><br>

      &gt; &gt;&gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;

      _______________________________________________ StarCluster<br>

      &gt; &gt;&gt;&gt;&gt;&gt; mailing list <a class="moz-txt-link-abbreviated" href="mailto:StarCluster@mit.edu">StarCluster@mit.edu</a><br>

      &gt; &gt;&gt;&gt;&gt;&gt;

      <a class="moz-txt-link-freetext" href="http://mailman.mit.edu/mailman/listinfo/starcluster">http://mailman.mit.edu/mailman/listinfo/starcluster</a><br>

      &gt; &gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt;<br>

      &gt; &gt;&gt;&gt; _______________________________________________

      StarCluster<br>

      &gt; &gt;&gt;&gt; mailing list <a class="moz-txt-link-abbreviated" href="mailto:StarCluster@mit.edu">StarCluster@mit.edu</a><br>

      &gt; &gt;&gt;&gt;

      <a class="moz-txt-link-freetext" href="http://mailman.mit.edu/mailman/listinfo/starcluster">http://mailman.mit.edu/mailman/listinfo/starcluster</a><br>

      &gt;<br>

      &gt;</span><br>

    <br>

    -----BEGIN PGP SIGNATURE-----<br>

    Version: GnuPG v1.4.11 (Darwin)<br>

    Comment: Using GnuPG with Mozilla - <a class="moz-txt-link-freetext" href="http://enigmail.mozdev.org/">http://enigmail.mozdev.org/</a><br>

    <br>

    iEYEARECAAYFAk7dYA8ACgkQ4llAkMfDcrl3/gCfWl/niHCWOAmdAe9kRF5I6r//<br>

    bTQAnjM5LpXxNLrPX7Pr+lXlxkJTkBJN<br>

    =9p5j<br>

    -----END PGP SIGNATURE-----<br>

    <br>

  </body>

</html>