<div dir="ltr">Actually, on looking closer into it, this may not be a bug in StarCluster per se-- I think one of my nodes may have crashed and when StarCluster was summing up the #processors over the nodes, it failed to ssh to that node.  <div>
Dan</div><div><br></div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Thu, Feb 21, 2013 at 12:59 PM, Daniel Povey <span dir="ltr">&lt;<a href="mailto:dpovey@gmail.com" target="_blank">dpovey@gmail.com</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">I attach a crash report.<div>I think this may be an error in mapping a node name to an internet name.</div>
<div>The host  <a href="http://ec2-23-22-72-123.compute-1.amazonaws.com" target="_blank">ec2-23-22-72-123.compute-1.amazonaws.com</a> was not actually node004 which I was trying to remove, it was node003.</div>
<div>Do you think the github version will be better than the released version at the moment?  I do have the latest release.</div><div>Dan</div><div><br></div><div><div><br></div><div>&gt;&gt;&gt; Removing node004 from SGE</div>

<div>!!! ERROR - command &#39;source /etc/profile &amp;&amp; qconf -de node004&#39; failed with status 1</div><div>!!! ERROR - command &#39;pkill -9 sge_execd&#39; failed with status 1</div><div>&gt;&gt;&gt; Updating SGE parallel environment &#39;orte&#39;</div>

<div>4/4 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| 100%</div><div>error occurred in job (id=139906233857792): failed to connect to host <a href="http://ec2-23-22-72-123.compute-1.amazonaws.com" target="_blank">ec2-23-22-72-123.compute-1.amazonaws.com</a> on port 22</div>

<div>Traceback (most recent call last):</div><div>  File &quot;/opt/lib/python2.6/site-packages/StarCluster-0.93.3-py2.6.egg/starcluster/threadpool.py&quot;, line 31, in run</div><div>    job.run()</div><div>  File &quot;/opt/lib/python2.6/site-packages/StarCluster-0.93.3-py2.6.egg/starcluster/threadpool.py&quot;, line 58, in run</div>

<div>    r = self.method(*self.args, **self.kwargs)</div><div>  File &quot;/opt/lib/python2.6/site-packages/StarCluster-0.93.3-py2.6.egg/starcluster/plugins/sge.py&quot;, line 50, in &lt;lambda&gt;</div><div>    num_processors = sum(self.pool.map(lambda n: n.num_processors, nodes))</div>

<div>  File &quot;/opt/lib/python2.6/site-packages/StarCluster-0.93.3-py2.6.egg/starcluster/node.py&quot;, line 169, in num_processors</div><div>    &#39;cat /proc/cpuinfo | grep processor | wc -l&#39;)[0])</div><div>  File &quot;/opt/lib/python2.6/site-packages/StarCluster-0.93.3-py2.6.egg/starcluster/sshutils/__init__.py&quot;, line 519, in execute</div>

<div>    channel = self.transport.open_session()</div><div>  File &quot;/opt/lib/python2.6/site-packages/StarCluster-0.93.3-py2.6.egg/starcluster/sshutils/__init__.py&quot;, line 136, in transport</div><div>    port=self._port, timeout=self._timeout)</div>

<div>  File &quot;/opt/lib/python2.6/site-packages/StarCluster-0.93.3-py2.6.egg/starcluster/sshutils/__init__.py&quot;, line 103, in connect</div><div>    raise exception.SSHConnectionError(host, port)</div><div>SSHConnectionError: failed to connect to host <a href="http://ec2-23-22-72-123.compute-1.amazonaws.com" target="_blank">ec2-23-22-72-123.compute-1.amazonaws.com</a> on port 22</div>

</div><div><br></div></div>
</blockquote></div><br></div>