<html dir="ltr">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<style id="owaParaStyle" type="text/css">P {margin-top:0;margin-bottom:0;}</style>
</head>
<body ocsi="0" fpstyle="1">
<div style="direction: ltr;font-family: Tahoma;color: #000000;font-size: 10pt;">Hi,
<br>
<br>
I am trying to run starcluster's loadbalancer to keep only one node running until jobs are submitted to the cluster. I know it's an experimental feature, but I'm wondering if anyone has run into this error before, or has any suggestions. The cluster has been
 whittled down to 1 node after a weekend of inactivity, and now it seems that when jobs are submitted to the queue, instead of adding nodes, SGE fails.<br>
<br>
&gt;&gt;&gt; Loading full job history<br>
*** WARNING - Failed to retrieve stats (1/5):<br>
Traceback (most recent call last):<br>
&nbsp; File &quot;/net/dorsal/apps/python2.7/lib/python2.7/site-packages/StarCluster-0.95.5-py2.7.egg/starcluster/balancers/sge/__init__.py&quot;, line 552, in get_stats<br>
&nbsp;&nbsp;&nbsp; return self._get_stats()<br>
&nbsp; File &quot;/net/dorsal/apps/python2.7/lib/python2.7/site-packages/StarCluster-0.95.5-py2.7.egg/starcluster/balancers/sge/__init__.py&quot;, line 522, in _get_stats<br>
&nbsp;&nbsp;&nbsp; qhostxml = '\n'.join(master.ssh.execute('qhost -xml'))<br>
&nbsp; File &quot;/net/dorsal/apps/python2.7/lib/python2.7/site-packages/StarCluster-0.95.5-py2.7.egg/starcluster/sshutils.py&quot;, line 578, in execute<br>
&nbsp;&nbsp;&nbsp; msg, command, exit_status, out_str)<br>
RemoteCommandFailed: remote command 'source /etc/profile &amp;&amp; qhost -xml' failed with status 1:<br>
error: commlib error: got select error (Connection refused)<br>
error: unable to send message to qmaster using port 63231 on host &quot;master&quot;: got send error<br>
<br>
Thanks for any help!<br>
Amanda<br>
</div>
</body>
</html>