<div dir="ltr"><div><div><div>Hi Amanda,<br>It looks like you cannot communicate with the master node anymore. The error message is because starcluster failed to execute a simple &#39;source /etc/profile/&#39; command with a &#39;connection refused&#39; error. <br><br>Can you paste us the output of the following two commands:<br><br></div>&gt; starcluster listclusters (should list status of all your active clusters and running nodes)<br><br></div>&gt; starcluster sshmaster &lt;your cluster name&gt; (i&#39;m expecting this to fail)<br><br></div>Raj <br></div><div class="gmail_extra"><br><div class="gmail_quote">On Mon, Sep 22, 2014 at 5:13 PM, Amanda Joy Kedaigle <span dir="ltr">&lt;<a href="mailto:mandyjoy@mit.edu" target="_blank">mandyjoy@mit.edu</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">




<div>
<div style="direction:ltr;font-family:Tahoma;color:#000000;font-size:10pt">Hi,
<br>
<br>
I am trying to run starcluster&#39;s loadbalancer to keep only one node running until jobs are submitted to the cluster. I know it&#39;s an experimental feature, but I&#39;m wondering if anyone has run into this error before, or has any suggestions. The cluster has been
 whittled down to 1 node after a weekend of inactivity, and now it seems that when jobs are submitted to the queue, instead of adding nodes, SGE fails.<br>
<br>
&gt;&gt;&gt; Loading full job history<br>
*** WARNING - Failed to retrieve stats (1/5):<br>
Traceback (most recent call last):<br>
  File &quot;/net/dorsal/apps/python2.7/lib/python2.7/site-packages/StarCluster-0.95.5-py2.7.egg/starcluster/balancers/sge/__init__.py&quot;, line 552, in get_stats<br>
    return self._get_stats()<br>
  File &quot;/net/dorsal/apps/python2.7/lib/python2.7/site-packages/StarCluster-0.95.5-py2.7.egg/starcluster/balancers/sge/__init__.py&quot;, line 522, in _get_stats<br>
    qhostxml = &#39;\n&#39;.join(master.ssh.execute(&#39;qhost -xml&#39;))<br>
  File &quot;/net/dorsal/apps/python2.7/lib/python2.7/site-packages/StarCluster-0.95.5-py2.7.egg/starcluster/sshutils.py&quot;, line 578, in execute<br>
    msg, command, exit_status, out_str)<br>
RemoteCommandFailed: remote command &#39;source /etc/profile &amp;&amp; qhost -xml&#39; failed with status 1:<br>
error: commlib error: got select error (Connection refused)<br>
error: unable to send message to qmaster using port 63231 on host &quot;master&quot;: got send error<br>
<br>
Thanks for any help!<span class="HOEnZb"><font color="#888888"><br>
Amanda<br>
</font></span></div>
</div>

<br>_______________________________________________<br>
StarCluster mailing list<br>
<a href="mailto:StarCluster@mit.edu">StarCluster@mit.edu</a><br>
<a href="http://mailman.mit.edu/mailman/listinfo/starcluster" target="_blank">http://mailman.mit.edu/mailman/listinfo/starcluster</a><br>
<br></blockquote></div><br></div>