<div dir="ltr">To Starcluster Mailing Archives and future self:<br><br>I couldn&#39;t diagnose the source of the problem, but there&#39;s a hacky workaround.<br><br>Find cluster.py in the installation. I found it here:<br>
/usr/local/lib/python2.7/dist-packages/StarCluster-0.9999-py2.7.egg/starcluster/cluster.py<br>If its not there, check the installation path that&#39;s written to terminal during the installation (if you can).<br><br>Look for the function wait_for_active_spots (it was around line 1360, they&#39;re different in 0.9999 and 0.95)<br>
At the top of the function, after the comments, add:<br>hackStop = raw_input(&#39;Hit Return When all nodes are up...&#39;)<br>Save, exit, and recompile cluster.py (better to make an old copy just in case).<br><br>This change will have the effect of hanging the program after starcluster sends spot requests. Watch the EC2 console and wait for the spot requests to be filled.<br>
When they are ALL in a running state, hit enter. Addnode should then proceed as usual. If you&#39;re not adding node (if its your intial spot cluster start), you can hit enter and let the program do the waiting, only addnode needs to be manually overseen.<br>
<br>Yoshi<br></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Thu, Feb 13, 2014 at 8:32 PM, Yugarshi Mondal <span dir="ltr">&lt;<a href="mailto:ymondal@berkeley.edu" target="_blank">ymondal@berkeley.edu</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div><div><div>Hey Starcluster,<br><br></div>I&#39;m getting the same error as this guy:<br><a href="http://star.mit.edu/cluster/mlarchives/1592.html" target="_blank">http://star.mit.edu/cluster/mlarchives/1592.html</a><br>

<br></div><div>Briefly:<br></div>When I go to use addnode, a spot request opens on amazon (i&#39;m starting a spot cluster, so addnode bids). But starcluster proceeds to try to install ssh without waiting for the node to come up.<br>

<br>&gt;&gt;&gt; Launching node(s): node002<br>SpotInstanceRequest:sir-b35acc5e<br>&gt;&gt;&gt; Waiting for spot requests to propagate... <br>&gt;&gt;&gt; Waiting for node(s) to come up... (updating every 30s)<br>&gt;&gt;&gt; Waiting for all nodes to be in a &#39;running&#39; state...<br>

2/2 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| 100%  <br>&gt;&gt;&gt; Waiting for SSH to come up on all nodes...<br>2/2 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| 100%  <br>

&gt;&gt;&gt; Waiting for cluster to come up took 0.020 mins<br>!!! ERROR - node &#39;node002&#39; does not exist<br><br></div><div>Morever, this only happens when addnode tried to bid (either by defualt becuase im running a spot cluster or by inline directive)<br>

</div><div><br></div><div>I don&#39;t know what to try next tho. Do you guys have any ideas where to start?<br></div><br>thanks<br>Yoshi<br></div>
</blockquote></div><br></div>