<html>
  <head>
    <meta content="text/html; charset=ISO-8859-1"
      http-equiv="Content-Type">
  </head>
  <body bgcolor="#FFFFFF" text="#000000">
    <br>
    -----BEGIN PGP SIGNED MESSAGE-----<br>
    Hash: SHA1<br>
    <br>
    OK, in this case running 'source /etc/profile' should fix the issue
    if it ever happens again - no need to terminate the cluster.<br>
    <br>
    In any event, glad you got things working. Would you mind sharing
    the exact settings/procedures you used to fix the issue? This should
    probably be tunable from StarCluster...<br>
    <br>
    ~Justin<br>
    <br>
    <br>
    On 12/5/11 6:16 PM, Amirhossein Kiani wrote:<br>
    <span style="white-space: pre;">&gt; Thanks Justin... I think the
      issue was I had "sudo su" 'ed on the instance and qconf was not on
      the roots path...<br>
      &gt; I teared down my cluster and creating a new one...<br>
      &gt;<br>
      &gt; On Dec 5, 2011, at 3:13 PM, Justin Riley wrote:<br>
      &gt;<br>
      &gt; Amir,<br>
      &gt;<br>
      &gt; qconf is included in the StarCluster AMIs so there must be
      some other<br>
      &gt; issue you're facing. Also, I wouldn't recommend installing
      the<br>
      &gt; gridengine packages from ubuntu as they're most likely not
      compatible<br>
      &gt; with StarCluster's bundled version in /opt/sge6 as you're
      seeing.<br>
      &gt;<br>
      &gt; With that said which AMI are you using and what does "echo
      $PATH" look<br>
      &gt; like when you login as root (via sshmaster)?<br>
      &gt;<br>
      &gt; ~Justin<br>
      &gt;<br>
      &gt;<br>
      &gt; On 12/05/2011 06:07 PM, Amirhossein Kiani wrote:<br>
      &gt; &gt;&gt;&gt; So I tried this and couldn't run qconf because
      it was not<br>
      &gt; &gt;&gt;&gt; installed. I then tried installing it using
      apt-get and specified<br>
      &gt; &gt;&gt;&gt; default for the cell name and "master" for the
      master name which<br>
      &gt; &gt;&gt;&gt; is the default for the SGE created using
      StarCluster.<br>
      &gt; &gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt; However now when I want to use qconf, it says:<br>
      &gt; &gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt; root@master:/data/stanford/aligned# qconf
      -msconf error: commlib<br>
      &gt; &gt;&gt;&gt; error: got select error (Connection refused)
      unable to send<br>
      &gt; &gt;&gt;&gt; message to qmaster using port 6444 on host
      "master": got send<br>
      &gt; &gt;&gt;&gt; error<br>
      &gt; &gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt; Any idea how i could configure it to work?<br>
      &gt; &gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt; Many thanks, Amir<br>
      &gt; &gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt; On Dec 5, 2011, at 1:52 PM, Rayson Ho wrote:<br>
      &gt; &gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt; Hi Amirhossein,<br>
      &gt; &gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt; I was working on a few other things, and I
      just saw your message<br>
      &gt; &gt;&gt;&gt;&gt; -- I have to spend less time on mailing list
      discussions these<br>
      &gt; &gt;&gt;&gt;&gt; days due to the number of things that I
      needed to develop and/or<br>
      &gt; &gt;&gt;&gt;&gt; fix, and I am also working on a new patch
      release of OGS/Grid<br>
      &gt; &gt;&gt;&gt;&gt; Engine 2011.11. Luckily, I just found the
      mail that exactly<br>
      &gt; &gt;&gt;&gt;&gt; solves the issue you are encountering:<br>
      &gt; &gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt; <a class="moz-txt-link-freetext" href="http://markmail.org/message/zdj5ebfrzhnadglf">http://markmail.org/message/zdj5ebfrzhnadglf</a><br>
      &gt; &gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt; For more info, see the
      "job_load_adjustments" and<br>
      &gt; &gt;&gt;&gt;&gt; "load_adjustment_decay_time" parameters in
      the Grid Engine<br>
      &gt; &gt;&gt;&gt;&gt; manpage:<br>
      &gt; &gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;
      <a class="moz-txt-link-freetext" href="http://gridscheduler.sourceforge.net/htmlman/htmlman5/sched_conf.html">http://gridscheduler.sourceforge.net/htmlman/htmlman5/sched_conf.html</a><br>
      &gt; &gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;<br>
      &gt; Rayson<br>
      &gt; &gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt; ================================= Grid
      Engine / Open Grid<br>
      &gt; &gt;&gt;&gt;&gt; Scheduler
      <a class="moz-txt-link-freetext" href="http://gridscheduler.sourceforge.net/">http://gridscheduler.sourceforge.net/</a><br>
      &gt; &gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt; Scalable Grid Engine Support Program<br>
      &gt; &gt;&gt;&gt;&gt; <a class="moz-txt-link-freetext" href="http://www.scalablelogic.com/">http://www.scalablelogic.com/</a><br>
      &gt; &gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt; ________________________________ From:
      Amirhossein Kiani<br>
      &gt; &gt;&gt;&gt;&gt; <a class="moz-txt-link-rfc2396E" href="mailto:amirhkiani@gmail.com">&lt;amirhkiani@gmail.com&gt;</a> To: Rayson Ho
      <a class="moz-txt-link-rfc2396E" href="mailto:raysonlogin@yahoo.com">&lt;raysonlogin@yahoo.com&gt;</a> Cc:<br>
      &gt; &gt;&gt;&gt;&gt; Justin Riley
      <a class="moz-txt-link-rfc2396E" href="mailto:justin.t.riley@gmail.com">&lt;justin.t.riley@gmail.com&gt;</a>; <a class="moz-txt-link-rfc2396E" href="mailto:starcluster@mit.edu">"starcluster@mit.edu"</a><br>
      &gt; &gt;&gt;&gt;&gt; <a class="moz-txt-link-rfc2396E" href="mailto:starcluster@mit.edu">&lt;starcluster@mit.edu&gt;</a> Sent: Friday,
      December 2, 2011 6:36 PM<br>
      &gt; &gt;&gt;&gt;&gt; Subject: Re: [StarCluster] AWS instance runs
      out of memory and<br>
      &gt; &gt;&gt;&gt;&gt; swaps<br>
      &gt; &gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt; Dear Rayson,<br>
      &gt; &gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt; Did you have a chance to test your solution
      on this? Basically,<br>
      &gt; &gt;&gt;&gt;&gt; all I want is to prevent a job from running
      on an instance if it<br>
      &gt; &gt;&gt;&gt;&gt; does not have the memory required for the
      job.<br>
      &gt; &gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt; I would very much appreciate your help!<br>
      &gt; &gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt; Many thanks, Amir<br>
      &gt; &gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt; On Nov 21, 2011, at 10:29 AM, Rayson Ho
      wrote:<br>
      &gt; &gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt; Amir,<br>
      &gt; &gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt; You can use qhost to list all the node
      and resources that each<br>
      &gt; &gt;&gt;&gt;&gt;&gt; node has.<br>
      &gt; &gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt; I have an answer to the memory issue,
      but I have not have time<br>
      &gt; &gt;&gt;&gt;&gt;&gt; to properly type up a response and test
      it.<br>
      &gt; &gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt; Rayson<br>
      &gt; &gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt; ________________________________ From:
      Amirhossein Kiani<br>
      &gt; &gt;&gt;&gt;&gt;&gt; <a class="moz-txt-link-rfc2396E" href="mailto:amirhkiani@gmail.com">&lt;amirhkiani@gmail.com&gt;</a> To: Justin
      Riley<br>
      &gt; &gt;&gt;&gt;&gt;&gt; <a class="moz-txt-link-rfc2396E" href="mailto:justin.t.riley@gmail.com">&lt;justin.t.riley@gmail.com&gt;</a> Cc:
      Rayson Ho<br>
      &gt; &gt;&gt;&gt;&gt;&gt; <a class="moz-txt-link-rfc2396E" href="mailto:rayrayson@gmail.com">&lt;rayrayson@gmail.com&gt;</a>;
      <a class="moz-txt-link-rfc2396E" href="mailto:starcluster@mit.edu">"starcluster@mit.edu"</a><br>
      &gt; &gt;&gt;&gt;&gt;&gt; <a class="moz-txt-link-rfc2396E" href="mailto:starcluster@mit.edu">&lt;starcluster@mit.edu&gt;</a> Sent:
      Monday, November 21, 2011 1:26 PM<br>
      &gt; &gt;&gt;&gt;&gt;&gt; Subject: Re: [StarCluster] AWS instance
      runs out of memory and<br>
      &gt; &gt;&gt;&gt;&gt;&gt; swaps<br>
      &gt; &gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt; Hi Justin,<br>
      &gt; &gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt; Many thanks for your reply. I don't have
      any issue with<br>
      &gt; &gt;&gt;&gt;&gt;&gt; multiple jobs running per node if there
      is enough memory for<br>
      &gt; &gt;&gt;&gt;&gt;&gt; them. But since I know about the nature
      of my jobs, I can<br>
      &gt; &gt;&gt;&gt;&gt;&gt; predict that only one per node should be
      running. How can I<br>
      &gt; &gt;&gt;&gt;&gt;&gt; see how much memory does SGE think each
      node have? Is there a<br>
      &gt; &gt;&gt;&gt;&gt;&gt; way to list that?<br>
      &gt; &gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt; Regards, Amir<br>
      &gt; &gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt; On Nov 21, 2011, at 8:18 AM, Justin
      Riley wrote:<br>
      &gt; &gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt; Hi Amir,<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt; Sorry to hear you're still having
      issues. This is really<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt; more of an SGE issue more than
      anything but perhaps Rayson<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt; can give a better insight as to
      what's going on. It seems<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt; you're using 23G nodes and 12GB
      jobs. Just for drill does<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt; 'qhost' show each node having 23GB?
      Definitely seems like<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt; there's a boundary issue here given
      that two of your jobs<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt; together approaches the total memory
      of the machine (23GB).<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt; Is it your goal only to have one job
      per<br>
      &gt; &gt;&gt;&gt;&gt; node?<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt; ~Justin<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt; On 11/16/2011 09:00 PM, Amirhossein
      Kiani wrote:<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; Dear all,<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; I even wrote the queue
      submission script myself, adding<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; the
      mem_free=MEM_NEEDED,h_vmem=MEM_MAX parameter but<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; sometimes two jobs are randomly
      sent to one node that does<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; not have enough memory for two
      jobs and they start running.<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; I think the SGE should check on
      the instance memory and not<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; run multiple jobs on a machine
      when the memory requirement<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; for the jobs in total is above
      the memory available in the<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; node (or maybe there is a bug in
      the current check)<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; Amir<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; On Nov 8, 2011, at 5:37 PM,
      Amirhossein Kiani wrote:<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; Hi Justin,<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; I'm using a third-party tool
      to submit the jobs but I am<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; setting the hard<br>
      &gt; &gt;&gt;&gt;&gt; limit.<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; For all my jobs I have
      something like this for the job<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; description:<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; [root@master test]# qstat -j
      1<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;
      ==============================================================<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; job_number: 1<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; exec_file: job_scripts/1<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; submission_time: Tue Nov 8
      17:31:39 2011<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; owner: root uid: 0 group:<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; root gid: 0<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt; sge_o_home: /root<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; sge_o_log_name: root
      sge_o_path:<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;
/home/apps/bin:/home/apps/vcftools_0.1.7/bin:/home/apps/tabix-0.2.5:/home/apps/BEDTools-Version-2.14.2/bin:/home/apps/samtools/bcftools:/home/apps/samtools:/home/apps/bwa-0.5.9:/home/apps/Python-2.7.2:/usr/lib/jvm/java-1.6.0-openjdk-1.6.0.0.x86_64/bin:/home/apps/sjm-1.0/bin:/home/apps/hugeseq/bin:/usr/lib64/openmpi/1.4-gcc/bin:/usr/kerberos/sbin:/usr/kerberos/bin:/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin:/usr/local/cuda/bin:/usr/local/cuda/computeprof/bin:/usr/local/cuda/open64/bin:/opt/sge6/bin/lx24-amd64:/root/bin<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; sge_o_shell: /bin/bash<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; sge_o_workdir:<br>
      &gt; &gt;&gt;&gt;&gt; /data/test<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; sge_o_host: master account:
      sge<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; stderr_path_list:<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;
      NONE:master:/data/log/SAMPLE.bin_aln-chr1_e111108173139.txt<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; *hard resource_list: h_vmem=12000M*<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; mail_list: root@master
      notify: FALSE<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; job_name:
      SAMPLE.bin_aln-chr1<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; stdout_path_list:<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;
      NONE:master:/data/log/SAMPLE.bin_aln-chr1_o111108173139.txt<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; jobshare:<br>
      &gt; &gt;&gt;&gt;&gt; 0<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; hard_queue_list: all.q
      env_list: job_args:<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;
      -c,/home/apps/hugeseq/bin/hugeseq_mod.sh bin_sam.sh chr1<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; /data/chr1.bam
      /data/bwa_small.bam &amp;&amp;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;
      /home/apps/hugeseq/bin/hugeseq_mod.sh sam_index.sh<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; /data/chr1.bam script_file:
      /bin/sh<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; verify_suitable_queues: 2
      scheduling info:<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; (Collecting of scheduler job
      information is turned off)<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; And I'm using the Cluster
      GPU Quadruple Extra Large<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; instances which<br>
      &gt; &gt;&gt;&gt;&gt; I<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; think has about 23G memory.
      The issue that I see is too<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; many of the jobs are
      submitted. I guess I need to set<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; the mem_free too? (the
      problem is the tool im using does<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; not seem to have a way tot
      set that...)<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; Many thanks, Amir<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; On Nov 8, 2011, at 5:47 AM,
      Justin Riley wrote:<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; Hi Amirhossein,<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; Did you specify the memory usage
      in your job script or at<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; command line and what parameters
      did you use exactly?<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; Doing a quick search I believe
      that the following will<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; solve the problem although I
      haven't tested myself:<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; $ qsub -l
      mem_free=MEM_NEEDED,h_vmem=MEM_MAX yourjob.sh<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; Here, MEM_NEEDED and MEM_MAX are
      the lower and<br>
      &gt; &gt;&gt;&gt;&gt; upper bounds for your<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; job's memory requirements.<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; HTH,<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; ~Justin<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; On 7/22/64 2:59 PM, Amirhossein
      Kiani wrote:<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; Dear Star Cluster users,<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; I'm using Star Cluster to
      set up an SGE and when I ran<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; my job list,<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; although I had specified the
      memory usage for each job, it<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; submitted too many jobs on my
      instance and my instance<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; started going out of memory and
      swapping.<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; I wonder if anyone knows how
      I could tell the SGE the<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; max memory to<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; consider when submitting jobs to
      each node so that it<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; doesn't run the jobs if there is
      not enough memory<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; available on a node.<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; I'm using the Cluster GPU
      Quadruple Extra Large<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; instances.<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; Many thanks, Amirhossein
      Kiani<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;
      _______________________________________________<br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt; StarCluster mailing list
      <a class="moz-txt-link-abbreviated" href="mailto:StarCluster@mit.edu">StarCluster@mit.edu</a><br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;&gt;
      <a class="moz-txt-link-freetext" href="http://mailman.mit.edu/mailman/listinfo/starcluster">http://mailman.mit.edu/mailman/listinfo/starcluster</a><br>
      &gt; &gt;&gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;
      _______________________________________________ StarCluster<br>
      &gt; &gt;&gt;&gt;&gt;&gt; mailing list <a class="moz-txt-link-abbreviated" href="mailto:StarCluster@mit.edu">StarCluster@mit.edu</a><br>
      &gt; &gt;&gt;&gt;&gt;&gt;
      <a class="moz-txt-link-freetext" href="http://mailman.mit.edu/mailman/listinfo/starcluster">http://mailman.mit.edu/mailman/listinfo/starcluster</a><br>
      &gt; &gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt;<br>
      &gt; &gt;&gt;&gt; _______________________________________________
      StarCluster<br>
      &gt; &gt;&gt;&gt; mailing list <a class="moz-txt-link-abbreviated" href="mailto:StarCluster@mit.edu">StarCluster@mit.edu</a><br>
      &gt; &gt;&gt;&gt;
      <a class="moz-txt-link-freetext" href="http://mailman.mit.edu/mailman/listinfo/starcluster">http://mailman.mit.edu/mailman/listinfo/starcluster</a><br>
      &gt;<br>
      &gt;</span><br>
    <br>
    -----BEGIN PGP SIGNATURE-----<br>
    Version: GnuPG v1.4.11 (Darwin)<br>
    Comment: Using GnuPG with Mozilla - <a class="moz-txt-link-freetext" href="http://enigmail.mozdev.org/">http://enigmail.mozdev.org/</a><br>
    <br>
    iEYEARECAAYFAk7dYA8ACgkQ4llAkMfDcrl3/gCfWl/niHCWOAmdAe9kRF5I6r//<br>
    bTQAnjM5LpXxNLrPX7Pr+lXlxkJTkBJN<br>
    =9p5j<br>
    -----END PGP SIGNATURE-----<br>
    <br>
  </body>
</html>