Hi Justin,<div><br></div><div>Thanks for your response.<br><div><br></div><div>1. Currently my account has an instance limit of 100. </div><div><br></div><div>2. I will with spot instance to check with the speed.</div><div>
<br></div><div>3. As per one of my query.</div><div><meta http-equiv="content-type" content="text/html; charset=utf-8"><span class="Apple-style-span" style="border-collapse: collapse; color: rgb(80, 0, 80); font-family: arial, sans-serif; font-size: 13px; "><div>
<br></div><div><span style="border-collapse: collapse; font-family: arial, sans-serif; font-size: 13px; "><div>Does starcluster wait for all the nodes to be up and then it starts configuring them all at one time.</div><div>
Is there any parameter in the config file or any options in the starcluster start command that says &quot;<font color="#000099">configuration of the cluster and installing SGE/Configuring NFS  to be a parallel operation. any node should not wait for the other nodes to be up for getiing configured that&#39;s if we post a job on that ready node it should start executing the job with the available no of nodes that are running and configured</font>.&quot;</div>
<div><br></div><div>If the above is not possible  , is there any specific reason while starting a cluster, starcluster does the configuration of nodes only when all are running.</div><div><br></div><div><br></div><div>Regards</div>
<div>Sumita</div></span></div></span><br><div class="gmail_quote">On Wed, Nov 9, 2011 at 12:15 PM, Justin Riley <span dir="ltr">&lt;<a href="mailto:jtriley@mit.edu">jtriley@mit.edu</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
<div class="im">-----BEGIN PGP SIGNED MESSAGE-----<br>
Hash: SHA1<br>
<br>
Hi Sumita,<br>
<br>
</div>Unless you&#39;ve specifically submitted a request to Amazon to increase<br>
your instance limit[1] I can&#39;t help but suspect that you&#39;re likely<br>
running into issues because of the default 20 instance limit for<br>
flat-rate instances I mentioned earlier.<br>
<br>
I would recommend trying with spot instances[2]; they&#39;re usually<br>
cheaper than the flat-rate(s) AND you can launch up to 100 of them. To<br>
request a spot cluster just pass the --bid option to the start command:<br>
<br>
$ starcluster start --bid 0.50 mycluster<br>
<br>
This will place a $0.50 spot bid on each node in the cluster except<br>
for the master. The master node is always launched as a flat-rate<br>
instance for stability.<br>
<br>
To help you decide a decent spot bid use the spot history command:<br>
<br>
$ starcluster spothistory m1.large<br>
<br>
With that said you can check which nodes have SSH up using:<br>
<br>
$ starcluster listclusters --show-ssh-status<br>
<br>
Also, you can *always* restart and reboot all nodes in the cluster and<br>
completely reconfigure the cluster using the &quot;restart&quot; commmand:<br>
<br>
$ starcluster restart mycluster<br>
<br>
HTH,<br>
<br>
~Justin<br>
<br>
[1] <a href="http://aws.amazon.com/contact-us/ec2-request/" target="_blank">http://aws.amazon.com/contact-us/ec2-request/</a><br>
[2] <a href="http://aws.amazon.com/ec2/spot-instances/" target="_blank">http://aws.amazon.com/ec2/spot-instances/</a><br>
<div class="im"><br>
On 11/08/2011 07:20 PM, Sumita Sinha wrote:<br>
&gt; Hi Justin,<br>
&gt;<br>
&gt; I again tried creating 30 nodes cluster and figured out something<br>
&gt; new. I am waiting for last 20 min for the cluster to be up. I get<br>
&gt; the below message. Currently in EC2 all the nodes are up and<br>
&gt; running ,i don&#39;t know which node is taking time for SSH<br>
&gt; configuration. so i am not able to restart or terminate a node.<br>
&gt;<br>
&gt;&gt;&gt;&gt; Using default cluster template: smallcluster Validating<br>
&gt;&gt;&gt;&gt; cluster template settings... Cluster template settings are<br>
&gt;&gt;&gt;&gt; valid Starting cluster... Launching a 30-node cluster...<br>
&gt;&gt;&gt;&gt; Creating security group @sc-smallcluster...<br>
&gt; Reservation:r-0e2d7060<br>
&gt;&gt;&gt;&gt; Waiting for cluster to come up... (updating every 30s)<br>
&gt;&gt;&gt;&gt; Waiting for all nodes to be in a &#39;running&#39; state...<br>
&gt; 29/29<br>
&gt; ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||<br>
&gt;  100%<br>
&gt;&gt;&gt;&gt; Waiting for SSH to come up on all nodes...<br>
&gt; 28/29<br>
&gt; |-------------------------------------------------------------   |<br>
&gt;  96%<br>
&gt;<br>
&gt;<br>
&gt; Regards Sumita<br>
&gt;<br>
&gt; On Tue, Nov 8, 2011 at 7:42 PM, Justin Riley &lt;<a href="mailto:jtriley@mit.edu">jtriley@mit.edu</a><br>
</div><div><div></div><div class="h5">&gt; &lt;mailto:<a href="mailto:jtriley@mit.edu">jtriley@mit.edu</a>&gt;&gt; wrote:<br>
&gt;<br>
&gt;<br>
&gt; Hi Sumita,<br>
&gt;<br>
&gt; Were you using spot instances? If not I believe there&#39;s a default<br>
&gt; limit of 20 instances by default for flat-rate instances which<br>
&gt; *could* be related to your issue. With spot instances you can<br>
&gt; create up to 100 instances by default. So, if you need more than<br>
&gt; 20 nodes and do not wish to submit a request to Amazon to increase<br>
&gt; your flat-rate instance limit, you should be using spot instances:<br>
&gt;<br>
&gt; $ starcluster start -s 30 -b 0.50 mycluster<br>
&gt;<br>
&gt; With that said, StarCluster has no limit to the number of nodes you<br>
&gt; can create, however, as you&#39;ve seen, sometimes EC2 instances can<br>
&gt; take longer to become &#39;running&#39; than usual. Unfortunately this is<br>
&gt; purely an EC2 back-end issue that cannot be resolved directly by<br>
&gt; StarCluster. In my experience 22 minutes *is* quite a while to wait<br>
&gt; for any instance to come up, however, I have had instances take up<br>
&gt; to 15 min before in the past so this is not a total surprise to<br>
&gt; me.<br>
&gt;<br>
&gt; In the future if you run into this problem of waiting for an<br>
&gt; instance to change from &#39;pending&#39; to &#39;running&#39; for too long (e.g.<br>
&gt; 15min+) I would recommend simply terminating the faulty instance<br>
&gt; from the AWS console and then restart the cluster using:<br>
&gt;<br>
&gt; $ starcluster restart mycluster<br>
&gt;<br>
&gt; This should reboot all the currently running instances and begin<br>
&gt; configuring the cluster and avoid having to terminate the entire<br>
&gt; cluster and lose instance hours.<br>
&gt;<br>
&gt; HTH,<br>
&gt;<br>
&gt; ~Justin<br>
&gt;<br>
&gt;<br>
&gt; On 11/8/11 6:39 AM, Sumita Sinha wrote:<br>
&gt;&gt; Hello ,<br>
&gt;<br>
&gt;&gt; Currently working with starcluster on EC2.<br>
&gt;<br>
&gt;&gt; Tried creating a cluster with 30 nodes of type m1.small using<br>
&gt;&gt; AMI -<br>
&gt; ami-8cf913e5.<br>
&gt;&gt; Cluster creation was never completed as i found out that one<br>
&gt;&gt; node<br>
&gt; node025 was showing pending status.<br>
&gt;&gt; I waited for almost 22 minutes then terminated the cluster.<br>
&gt;&gt; Cluster was terminated properly. Is there any limit to the<br>
&gt;&gt; creation<br>
&gt; of nodes .<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;&gt; -- Regards Sumita Sinha<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; -- Regards Sumita Sinha<br>
&gt;<br>
&gt;<br>
<br>
-----BEGIN PGP SIGNATURE-----<br>
</div></div>Version: GnuPG v2.0.17 (GNU/Linux)<br>
<div class="im">Comment: Using GnuPG with Mozilla - <a href="http://enigmail.mozdev.org/" target="_blank">http://enigmail.mozdev.org/</a><br>
<br>
</div>iEYEARECAAYFAk66IZYACgkQ4llAkMfDcrmZ5ACeIPTP8ZiFKTlTNxif6SgIKsWm<br>
SmoAnA08GWFcOcmpCF+MMHwLzhqzD0Va<br>
=KFye<br>
-----END PGP SIGNATURE-----<br>
</blockquote></div><br><br clear="all"><div><br></div>-- <br>Regards<br>Sumita Sinha<br><br><br>
</div></div>