<div dir="ltr">To follow up, after using the hack in the link, I still find that the cluster takes a LONG time to configure etc/hosts. Any idea why this might be happening? <div>Weirder yet, all of the nodes have an identical /etc/hosts file. </div>
<div>I ran a loop sshing into all of the 31 nodes (30 + master) and cat&#39;d the /etc/hosts file. </div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Tue, Mar 25, 2014 at 8:11 PM, Cory Dolphin <span dir="ltr">&lt;<a href="mailto:wcdolphin@gmail.com" target="_blank">wcdolphin@gmail.com</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div><br></div>Whenever I try and add a node to a spot instance cluster, starcluster does not properly wait for the spot request to be fulfilled, and instead errors out:<div>
<br></div><div><div><font face="courier new, monospace">starcluster addnode mycluster</font></div>
<div><font face="courier new, monospace">StarCluster - (<a href="http://star.mit.edu/cluster" target="_blank">http://star.mit.edu/cluster</a>) (v. 0.95.3)</font></div><div><font face="courier new, monospace">Software Tools for Academics and Researchers (STAR)</font></div>

<div><font face="courier new, monospace">Please submit bug reports to <a href="mailto:starcluster@mit.edu" target="_blank">starcluster@mit.edu</a></font></div><div><font face="courier new, monospace"><br></font></div><div>
<font face="courier new, monospace">&gt;&gt;&gt; Launching node(s): node030</font></div>
<div><font face="courier new, monospace">SpotInstanceRequest:sir-85f44249</font></div><div><font face="courier new, monospace">&gt;&gt;&gt; Waiting for spot requests to propagate...</font></div><div><font face="courier new, monospace">&gt;&gt;&gt; Waiting for node(s) to come up... (updating every 30s)</font></div>

<div><font face="courier new, monospace">&gt;&gt;&gt; Waiting for all nodes to be in a &#39;running&#39; state...</font></div><div><font face="courier new, monospace">30/30 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| 100%</font></div>

<div><font face="courier new, monospace">&gt;&gt;&gt; Waiting for SSH to come up on all nodes...</font></div><div><font face="courier new, monospace">30/30 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| 100%</font></div>

<div><font face="courier new, monospace">&gt;&gt;&gt; Waiting for cluster to come up took 1.179 mins</font></div><div><font face="courier new, monospace">!!! ERROR - node &#39;node030&#39; does not exist</font></div></div>

<div class="gmail_extra"><br></div><div class="gmail_extra"><br></div><div class="gmail_extra">Once the spot instance request is fulfilled, the instance does not have a name. Looks like someone else had this problem quite <a href="http://star.mit.edu/cluster/mlarchives/2058.html" target="_blank">recently</a>. I wonder what the difference between our setup and yours is?</div>
<div><div class="h5">
<div class="gmail_extra"><br><br><div class="gmail_quote">On Tue, Mar 25, 2014 at 7:42 PM, Rayson Ho <span dir="ltr">&lt;<a href="mailto:raysonlogin@gmail.com" target="_blank">raysonlogin@gmail.com</a>&gt;</span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">If you really have a slow connection, you may consider bootstrapping<br>


StarCluster on AWS - ie. configure an m1.small (or even t1.micro) and<br>
install StarCluster on that node. In fact, there&#39;s a CloudFormation<br>
template for that:<br>
<a href="http://aws.typepad.com/aws/2012/06/ec2-spot-instance-updates-auto-scaling-and-cloudformation-integration-new-sample-app-1.html" target="_blank">http://aws.typepad.com/aws/2012/06/ec2-spot-instance-updates-auto-scaling-and-cloudformation-integration-new-sample-app-1.html</a><br>


. On the other hand, it&#39;s way easier to do it by hand and just launch<br>
an instance from the standard Ubuntu AMI, and then install StarCluster<br>
on that instance.<br>
<br>
And like others mentioned, most large StarClusters are launched by<br>
first starting a small cluster, and then grow it dynamically. You<br>
should be able to run the addnode command from your qmaster node<br>
provided that you have StarCluster setup there (note that your AWS key<br>
will be on the EC2 instance so it is slightly more risky if security<br>
is the main concern).<br>
<br>
Rayson<br>
<br>
==================================================<br>
Open Grid Scheduler - The Official Open Source Grid Engine<br>
<a href="http://gridscheduler.sourceforge.net/" target="_blank">http://gridscheduler.sourceforge.net/</a><br>
<a href="http://gridscheduler.sourceforge.net/GridEngine/GridEngineCloud.html" target="_blank">http://gridscheduler.sourceforge.net/GridEngine/GridEngineCloud.html</a><br>
<div><br>
<br>
On Tue, Mar 25, 2014 at 8:04 AM, Butson, Christopher &lt;<a href="mailto:cbutson@mcw.edu" target="_blank">cbutson@mcw.edu</a>&gt; wrote:<br>
</div>&gt; Interesting: I let it go and it eventually continued but it took over an hour to Configuring passwordless ssh for root. Still waiting for the cluster to finish startup...<br>
<div><div>&gt;<br>
&gt; Christopher R. Butson, Ph.D.<br>
&gt; Associate Professor<br>
&gt; Biotechnology &amp; Bioengineering Center<br>
&gt; Departments of Neurology, Neurosurgery, Psychiatry &amp; Behavioral Medicine<br>
&gt; Medical College of Wisconsin<br>
&gt; <a href="tel:%28414%29%20955-2678" value="+14149552678" target="_blank">(414) 955-2678</a><br>
&gt; <a href="mailto:cbutson@mcw.edu" target="_blank">cbutson@mcw.edu</a>&lt;mailto:<a href="mailto:cbutson@mcw.edu" target="_blank">cbutson@mcw.edu</a>&gt;<br>
&gt;<br>
&gt;<br>
&gt; From: &lt;Butson&gt;, Christopher Butson &lt;<a href="mailto:cbutson@mcw.edu" target="_blank">cbutson@mcw.edu</a>&lt;mailto:<a href="mailto:cbutson@mcw.edu" target="_blank">cbutson@mcw.edu</a>&gt;&gt;<br>
&gt; Date: Tuesday, March 25, 2014 12:13 PM<br>
&gt; To: &quot;<a href="mailto:starcluster@mit.edu" target="_blank">starcluster@mit.edu</a>&lt;mailto:<a href="mailto:starcluster@mit.edu" target="_blank">starcluster@mit.edu</a>&gt;&quot; &lt;<a href="mailto:starcluster@mit.edu" target="_blank">starcluster@mit.edu</a>&lt;mailto:<a href="mailto:starcluster@mit.edu" target="_blank">starcluster@mit.edu</a>&gt;&gt;<br>


&gt; Subject: Starcluster stuck during setup<br>
&gt;<br>
&gt; I&#39;m on a slow internet connection overseas, trying to initiate a cluster using StarCluster. Once I type &quot;starcluster start mycluster&quot; everything seems to go ok but it gets stuck at the following point and never seems to get past it:<br>


&gt;&gt;&gt;&gt; Mounting all NFS export path(s) on 79 worker node(s)<br>
&gt; 79/79 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| 100%<br>
&gt;&gt;&gt;&gt; Setting up NFS took 2.777 mins<br>
&gt;&gt;&gt;&gt; Configuring passwordless ssh for root<br>
&gt;<br>
&gt; Any idea why this might occur? Thanks,<br>
&gt; Chris<br>
&gt;<br>
&gt; Christopher R. Butson, Ph.D.<br>
&gt; Associate Professor<br>
&gt; Biotechnology &amp; Bioengineering Center<br>
&gt; Departments of Neurology, Neurosurgery, Psychiatry &amp; Behavioral Medicine<br>
&gt; Medical College of Wisconsin<br>
&gt; <a href="tel:%28414%29%20955-2678" value="+14149552678" target="_blank">(414) 955-2678</a><br>
&gt; <a href="mailto:cbutson@mcw.edu" target="_blank">cbutson@mcw.edu</a>&lt;mailto:<a href="mailto:cbutson@mcw.edu" target="_blank">cbutson@mcw.edu</a>&gt;<br>
&gt;<br>
&gt;<br>
&gt; _______________________________________________<br>
&gt; StarCluster mailing list<br>
&gt; <a href="mailto:StarCluster@mit.edu" target="_blank">StarCluster@mit.edu</a><br>
&gt; <a href="http://mailman.mit.edu/mailman/listinfo/starcluster" target="_blank">http://mailman.mit.edu/mailman/listinfo/starcluster</a><br>
_______________________________________________<br>
StarCluster mailing list<br>
<a href="mailto:StarCluster@mit.edu" target="_blank">StarCluster@mit.edu</a><br>
<a href="http://mailman.mit.edu/mailman/listinfo/starcluster" target="_blank">http://mailman.mit.edu/mailman/listinfo/starcluster</a><br>
</div></div></blockquote></div><br></div></div></div></div>
</blockquote></div><br></div>