<div dir="ltr"><div><br></div>Whenever I try and add a node to a spot instance cluster, starcluster does not properly wait for the spot request to be fulfilled, and instead errors out:<div><br></div><div><div><font face="courier new, monospace">starcluster addnode mycluster</font></div>
<div><font face="courier new, monospace">StarCluster - (<a href="http://star.mit.edu/cluster">http://star.mit.edu/cluster</a>) (v. 0.95.3)</font></div><div><font face="courier new, monospace">Software Tools for Academics and Researchers (STAR)</font></div>
<div><font face="courier new, monospace">Please submit bug reports to <a href="mailto:starcluster@mit.edu">starcluster@mit.edu</a></font></div><div><font face="courier new, monospace"><br></font></div><div><font face="courier new, monospace">&gt;&gt;&gt; Launching node(s): node030</font></div>
<div><font face="courier new, monospace">SpotInstanceRequest:sir-85f44249</font></div><div><font face="courier new, monospace">&gt;&gt;&gt; Waiting for spot requests to propagate...</font></div><div><font face="courier new, monospace">&gt;&gt;&gt; Waiting for node(s) to come up... (updating every 30s)</font></div>
<div><font face="courier new, monospace">&gt;&gt;&gt; Waiting for all nodes to be in a &#39;running&#39; state...</font></div><div><font face="courier new, monospace">30/30 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| 100%</font></div>
<div><font face="courier new, monospace">&gt;&gt;&gt; Waiting for SSH to come up on all nodes...</font></div><div><font face="courier new, monospace">30/30 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| 100%</font></div>
<div><font face="courier new, monospace">&gt;&gt;&gt; Waiting for cluster to come up took 1.179 mins</font></div><div><font face="courier new, monospace">!!! ERROR - node &#39;node030&#39; does not exist</font></div></div>
<div class="gmail_extra"><br></div><div class="gmail_extra"><br></div><div class="gmail_extra">Once the spot instance request is fulfilled, the instance does not have a name. Looks like someone else had this problem quite <a href="http://star.mit.edu/cluster/mlarchives/2058.html">recently</a>. I wonder what the difference between our setup and yours is?</div>
<div class="gmail_extra"><br><br><div class="gmail_quote">On Tue, Mar 25, 2014 at 7:42 PM, Rayson Ho <span dir="ltr">&lt;<a href="mailto:raysonlogin@gmail.com" target="_blank">raysonlogin@gmail.com</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">If you really have a slow connection, you may consider bootstrapping<br>

StarCluster on AWS - ie. configure an m1.small (or even t1.micro) and<br>
install StarCluster on that node. In fact, there&#39;s a CloudFormation<br>
template for that:<br>
<a href="http://aws.typepad.com/aws/2012/06/ec2-spot-instance-updates-auto-scaling-and-cloudformation-integration-new-sample-app-1.html" target="_blank">http://aws.typepad.com/aws/2012/06/ec2-spot-instance-updates-auto-scaling-and-cloudformation-integration-new-sample-app-1.html</a><br>

. On the other hand, it&#39;s way easier to do it by hand and just launch<br>
an instance from the standard Ubuntu AMI, and then install StarCluster<br>
on that instance.<br>
<br>
And like others mentioned, most large StarClusters are launched by<br>
first starting a small cluster, and then grow it dynamically. You<br>
should be able to run the addnode command from your qmaster node<br>
provided that you have StarCluster setup there (note that your AWS key<br>
will be on the EC2 instance so it is slightly more risky if security<br>
is the main concern).<br>
<br>
Rayson<br>
<br>
==================================================<br>
Open Grid Scheduler - The Official Open Source Grid Engine<br>
<a href="http://gridscheduler.sourceforge.net/" target="_blank">http://gridscheduler.sourceforge.net/</a><br>
<a href="http://gridscheduler.sourceforge.net/GridEngine/GridEngineCloud.html" target="_blank">http://gridscheduler.sourceforge.net/GridEngine/GridEngineCloud.html</a><br>
<div class=""><br>
<br>
On Tue, Mar 25, 2014 at 8:04 AM, Butson, Christopher &lt;<a href="mailto:cbutson@mcw.edu">cbutson@mcw.edu</a>&gt; wrote:<br>
</div>&gt; Interesting: I let it go and it eventually continued but it took over an hour to Configuring passwordless ssh for root. Still waiting for the cluster to finish startup...<br>
<div class=""><div class="h5">&gt;<br>
&gt; Christopher R. Butson, Ph.D.<br>
&gt; Associate Professor<br>
&gt; Biotechnology &amp; Bioengineering Center<br>
&gt; Departments of Neurology, Neurosurgery, Psychiatry &amp; Behavioral Medicine<br>
&gt; Medical College of Wisconsin<br>
&gt; <a href="tel:%28414%29%20955-2678" value="+14149552678">(414) 955-2678</a><br>
&gt; <a href="mailto:cbutson@mcw.edu">cbutson@mcw.edu</a>&lt;mailto:<a href="mailto:cbutson@mcw.edu">cbutson@mcw.edu</a>&gt;<br>
&gt;<br>
&gt;<br>
&gt; From: &lt;Butson&gt;, Christopher Butson &lt;<a href="mailto:cbutson@mcw.edu">cbutson@mcw.edu</a>&lt;mailto:<a href="mailto:cbutson@mcw.edu">cbutson@mcw.edu</a>&gt;&gt;<br>
&gt; Date: Tuesday, March 25, 2014 12:13 PM<br>
&gt; To: &quot;<a href="mailto:starcluster@mit.edu">starcluster@mit.edu</a>&lt;mailto:<a href="mailto:starcluster@mit.edu">starcluster@mit.edu</a>&gt;&quot; &lt;<a href="mailto:starcluster@mit.edu">starcluster@mit.edu</a>&lt;mailto:<a href="mailto:starcluster@mit.edu">starcluster@mit.edu</a>&gt;&gt;<br>

&gt; Subject: Starcluster stuck during setup<br>
&gt;<br>
&gt; I&#39;m on a slow internet connection overseas, trying to initiate a cluster using StarCluster. Once I type &quot;starcluster start mycluster&quot; everything seems to go ok but it gets stuck at the following point and never seems to get past it:<br>

&gt;&gt;&gt;&gt; Mounting all NFS export path(s) on 79 worker node(s)<br>
&gt; 79/79 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| 100%<br>
&gt;&gt;&gt;&gt; Setting up NFS took 2.777 mins<br>
&gt;&gt;&gt;&gt; Configuring passwordless ssh for root<br>
&gt;<br>
&gt; Any idea why this might occur? Thanks,<br>
&gt; Chris<br>
&gt;<br>
&gt; Christopher R. Butson, Ph.D.<br>
&gt; Associate Professor<br>
&gt; Biotechnology &amp; Bioengineering Center<br>
&gt; Departments of Neurology, Neurosurgery, Psychiatry &amp; Behavioral Medicine<br>
&gt; Medical College of Wisconsin<br>
&gt; <a href="tel:%28414%29%20955-2678" value="+14149552678">(414) 955-2678</a><br>
&gt; <a href="mailto:cbutson@mcw.edu">cbutson@mcw.edu</a>&lt;mailto:<a href="mailto:cbutson@mcw.edu">cbutson@mcw.edu</a>&gt;<br>
&gt;<br>
&gt;<br>
&gt; _______________________________________________<br>
&gt; StarCluster mailing list<br>
&gt; <a href="mailto:StarCluster@mit.edu">StarCluster@mit.edu</a><br>
&gt; <a href="http://mailman.mit.edu/mailman/listinfo/starcluster" target="_blank">http://mailman.mit.edu/mailman/listinfo/starcluster</a><br>
_______________________________________________<br>
StarCluster mailing list<br>
<a href="mailto:StarCluster@mit.edu">StarCluster@mit.edu</a><br>
<a href="http://mailman.mit.edu/mailman/listinfo/starcluster" target="_blank">http://mailman.mit.edu/mailman/listinfo/starcluster</a><br>
</div></div></blockquote></div><br></div></div>