<div dir="ltr">Edit: <br><br><div>It appears that the load balancer thinks the cluster is not running, even though listclusters says it is and I can successfully login using sshmaster. Still can&#39;t figure out why this is the case. </div><div><br></div><div>Apologies for the spam. </div><div><br></div><div><div>ubuntu@ip-10-0-0-20:~$ /opt/venv/python2_venv/bin/python /opt/venv/python2_venv/bin/starcluster -c /home/ubuntu/.starcluster/config loadbalance -n 1 -m 20 -w 300 dragon-1.3.0</div><div>StarCluster - (<a href="http://star.mit.edu/cluster">http://star.mit.edu/cluster</a>) (v. 0.95.6)</div><div>Software Tools for Academics and Researchers (STAR)</div><div>Please submit bug reports to <a href="mailto:starcluster@mit.edu">starcluster@mit.edu</a></div><div><br></div><div>!!! ERROR - cluster dragon-1.3.0 is not running</div></div><div>ubuntu@ip-10-0-0-20:~$ /opt/venv/python2_venv/bin/python /opt/venv/python2_venv/bin/starcluster -c /home/ubuntu/.starcluster/config listclusters<br></div><div><br></div><div><div>-----------------------------------------------</div><div>dragon-1.3.0 (security group: @sc-dragon-1.3.0)</div><div>-----------------------------------------------</div><div>Launch time: 2015-04-26 03:40:22</div><div>Uptime: 43 days, 11:42:08</div><div>VPC: vpc-849ec2e1</div><div>Subnet: subnet-b6901fef</div><div>Zone: us-east-1d</div><div>Keypair: bean_key</div><div>EBS volumes:</div><div>    vol-34a33e73 on master:/dev/sdz (status: attached)</div><div>    vol-dc7beb9b on master:/dev/sdx (status: attached)</div><div>    vol-57148c10 on master:/dev/sdy (status: attached)</div><div>    vol-8ba835cc on master:/dev/sdv (status: attached)</div><div>    vol-9253ced5 on master:/dev/sdw (status: attached)</div><div>Cluster nodes:</div><div>     master running i-609aa79c 52.0.250.221</div><div>    node002 running i-f4d6470b 52.4.102.101</div><div>    node014 running i-52d6b2ad 52.7.159.255</div><div>    node016 running i-fb9ae804 54.88.226.88</div><div>    node017 running i-b275084d 52.5.86.254</div><div>    node020 running i-14532eeb 52.5.111.191</div><div>    node021 running i-874b3678 54.165.179.93</div><div>    node022 running i-5abfc2a5 54.85.47.151</div><div>    node023 running i-529ee3ad 52.1.197.60</div><div>    node024 running i-0792eff8 54.172.58.21</div><div>Total nodes: 10</div></div><div><br></div><div><div>ubuntu@ip-10-0-0-20:~$ /opt/venv/python2_venv/bin/python /opt/venv/python2_venv/bin/starcluster -c /home/ubuntu/.starcluster/config sshmaster dragon-1.3.0</div><div>StarCluster - (<a href="http://star.mit.edu/cluster">http://star.mit.edu/cluster</a>) (v. 0.95.6)</div><div>Software Tools for Academics and Researchers (STAR)</div><div>Please submit bug reports to <a href="mailto:starcluster@mit.edu">starcluster@mit.edu</a></div><div><br></div><div>The authenticity of host &#39;52.0.250.221 (52.0.250.221)&#39; can&#39;t be established.</div><div>ECDSA key fingerprint is e7:21:af:bf:2b:bf:c4:49:43:b8:dd:0b:aa:d3:81:a0.</div><div>Are you sure you want to continue connecting (yes/no)? yes</div><div>Warning: Permanently added &#39;52.0.250.221&#39; (ECDSA) to the list of known hosts.</div><div>          _                 _           _</div><div>__/\_____| |_ __ _ _ __ ___| |_   _ ___| |_ ___ _ __</div><div>\    / __| __/ _` | &#39;__/ __| | | | / __| __/ _ \ &#39;__|</div><div>/_  _\__ \ || (_| | | | (__| | |_| \__ \ ||  __/ |</div><div>  \/ |___/\__\__,_|_|  \___|_|\__,_|___/\__\___|_|</div><div><br></div><div>StarCluster Ubuntu 13.04 AMI</div><div>Software Tools for Academics and Researchers (STAR)</div><div>Homepage: <a href="http://star.mit.edu/cluster">http://star.mit.edu/cluster</a></div><div>Documentation: <a href="http://star.mit.edu/cluster/docs/latest">http://star.mit.edu/cluster/docs/latest</a></div><div>Code: <a href="https://github.com/jtriley/StarCluster">https://github.com/jtriley/StarCluster</a></div><div>Mailing list: <a href="http://star.mit.edu/cluster/mailinglist.html">http://star.mit.edu/cluster/mailinglist.html</a></div><div><br></div><div>This AMI Contains:</div><div><br></div><div>  * Open Grid Scheduler (OGS - formerly SGE) queuing system</div><div>  * Condor workload management system</div><div>  * OpenMPI compiled with Open Grid Scheduler support</div><div>  * OpenBLAS - Highly optimized Basic Linear Algebra Routines</div><div>  * NumPy/SciPy linked against OpenBlas</div><div>  * Pandas - Data Analysis Library</div><div>  * IPython 1.1.0 with parallel and notebook support</div><div>  * Julia 0.3pre</div><div>  * and more! (use &#39;dpkg -l&#39; to show all installed packages)</div><div><br></div><div>Open Grid Scheduler/Condor cheat sheet:</div><div><br></div><div>  * qstat/condor_q - show status of batch jobs</div><div>  * qhost/condor_status- show status of hosts, queues, and jobs</div><div>  * qsub/condor_submit - submit batch jobs (e.g. qsub -cwd ./job.sh)</div><div>  * qdel/condor_rm - delete batch jobs (e.g. qdel 7)</div><div>  * qconf - configure Open Grid Scheduler system</div><div><br></div><div>Current System Stats:</div><div><br></div><div>  System load:  0.0                Processes:           226</div><div>  Usage of /:   80.8% of 78.61GB   Users logged in:     2</div><div>  Memory usage: 6%                 IP address for eth0: 10.0.0.213</div><div>  Swap usage:   0%</div><div><br></div><div>  =&gt; There are 2 zombie processes.</div><div><br></div><div>    <a href="https://landscape.canonical.com/">https://landscape.canonical.com/</a></div><div>Last login: Sun Apr 26 04:50:46 2015 from <a href="http://c-24-60-255-35.hsd1.ma.comcast.net">c-24-60-255-35.hsd1.ma.comcast.net</a></div><div>root@master:~#</div></div><div><br></div><div><br></div></div><br><div class="gmail_quote"><div dir="ltr">On Mon, Jun 8, 2015 at 11:10 AM David Koppstein &lt;<a href="mailto:david.koppstein@gmail.com">david.koppstein@gmail.com</a>&gt; wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Hi, <div><br></div><div>I noticed that my load balancer stopped working -- specifically, it has stopped deleting unnecessary nodes. It&#39;s been running fine for about three weeks. </div><div><br></div><div>I have a small T2 micro instance loadbalancing a cluster of M3.xlarge. The cluster is running Ubuntu 14.04 using the shared 14.0. AMI <span style="color:rgb(68,68,68);font-family:&#39;Helvetica Neue&#39;,Roboto,Arial,&#39;Droid Sans&#39;,sans-serif;font-size:15px;line-height:18.2000007629395px">ami-38b99850. </span></div><div><br></div><div>The loadbalancer process is still running (started with nohup CMD &amp;, where CMD is the loadbalancer command below): </div><div><br></div><div>```</div><div><div>ubuntu@ip-10-0-0-20:~$ ps -ef | grep load</div><div>ubuntu   11784 11730  0 15:04 pts/1    00:00:00 grep --color=auto load</div><div>ubuntu   19493     1  0 Apr26 ?        01:25:03 /opt/venv/python2_venv/bin/python /opt/venv/python2_venv/bin/starcluster -c /home/ubuntu/.starcluster/config loadbalance -n 1 -m 20 -w 300 dragon-1.3.0</div></div><div>```</div><div><br></div><div>Queue has been empty for several days. </div><div><br></div><div>```</div><div><div>dkoppstein@master:/dkoppstein/150521SG_v1.9_round2$ qstat -u &quot;*&quot;</div><div>dkoppstein@master:/dkoppstein/150521SG_v1.9_round2$</div></div><div>```</div><div><br></div><div>However, there are about 8 nodes that have been running over the weekend and are not being killed despite -n 1. If anyone has any guesses as to why the loadbalancer might stop working please let me know so I can prevent this from happening in the future. </div><div><br></div><div>Thanks,</div><div>David</div><div><br></div><div><br></div><div><br></div></div></blockquote></div>