<div dir="ltr">Hi all,<div><br></div><div>I was writing because I have been having a lot of issues with the load balancer.  The most common issue I have is that it fails to remove instances effectively.  In a super slow fashion, it goes through the instances it wants to terminate (this pace is frustrating independent of the failure/success of the operation), and one by one fails to terminate each one.  Then, I am forced to kill a subset of the nodes in my cluster manually.  But this results in the scheduler being confused by how many nodes are actually in the network, so when I later submit jobs to the cluster again, it thinks it has enough nodes to handle that load, and doesn&#39;t create new instances.  So I am forced to create a ton of dummy jobs (eg, &quot;<span style="font-family:arial,sans,sans-serif;font-size:13px">qsub -V -b y -cwd hostname&quot;), to trick the scheduler into thinking that it has more queued jobs than &quot;available&quot; machines.  These issues are quite annoying.</span></div><div><br></div><div>Additionally, just now I had an issue where the load balancer failed to launch a machine:</div><div><br></div><div><div>!!! ERROR - Error occured while running plugin &#39;starcluster.clustersetup.DefaultClusterSetup&#39;:</div><div>!!! ERROR - Failed to add new host</div><div>Traceback (most recent call last):</div><div>  File &quot;C:\Python27\lib\site-packages\starcluster-0.95.6-py2.7.egg\starcluster\balancers\sge\__init__.py&quot;, line 719, in _eval_add_node</div><div>    self._cluster.add_nodes(need_to_add)</div><div>  File &quot;C:\Python27\lib\site-packages\starcluster-0.95.6-py2.7.egg\starcluster\cluster.py&quot;, line 1042, in add_nodes</div><div>    self.run_plugins(method_name=&quot;on_add_node&quot;, node=node)</div><div>  File &quot;C:\Python27\lib\site-packages\starcluster-0.95.6-py2.7.egg\starcluster\cluster.py&quot;, line 1690, in run_plugins</div><div>    self.run_plugin(plug, method_name=method_name, node=node)</div><div>  File &quot;C:\Python27\lib\site-packages\starcluster-0.95.6-py2.7.egg\starcluster\cluster.py&quot;, line 1715, in run_plugin</div><div>    func(*args)</div><div>  File &quot;C:\Python27\lib\site-packages\starcluster-0.95.6-py2.7.egg\starcluster\clustersetup.py&quot;, line 425, in on_add_node</div><div>    self._setup_etc_hosts(nodes)</div><div>  File &quot;C:\Python27\lib\site-packages\starcluster-0.95.6-py2.7.egg\starcluster\clustersetup.py&quot;, line 252, in _setup_etc_hosts</div><div>    self.pool.wait(numtasks=len(nodes))</div><div>  File &quot;C:\Python27\lib\site-packages\starcluster-0.95.6-py2.7.egg\starcluster\threadpool.py&quot;, line 177, in wait</div><div>    &quot;An error occurred in ThreadPool&quot;, excs)</div><div>ThreadPoolException: An error occurred in ThreadPool</div><div>&gt;&gt;&gt; Sleeping...(looping again in 60 secs)</div></div><div><br></div><div>After getting this error, for some reason the load balancer stopped recognizing the existance of the cluster:</div><div><br></div><div><div>C:\Windows\system32&gt;starcluster loadbalance --max_nodes=100 --min_nodes=1 --add_nodes_per_iter=17 babel2</div><div>StarCluster - (<a href="http://star.mit.edu/cluster">http://star.mit.edu/cluster</a>) (v. 0.95.6)</div><div>Software Tools for Academics and Researchers (STAR)</div><div>Please submit bug reports to <a href="mailto:starcluster@mit.edu">starcluster@mit.edu</a></div><div><br></div><div>!!! ERROR - cluster babel2 is not running</div></div><div><br></div><div>Is anyone else hitting similar issues with the load balancer?</div><div><br></div><div>Thanks,</div><div>Avner</div></div>