OK I just started a new cluster.  I saw some weird things during the start-up: <br> <br>[snip part that was normal]<br>&gt;&gt;&gt; Setting up the cluster...<br>&gt;&gt;&gt; Mounting EBS volume vol-c3d927aa on /home...<br>
&gt;&gt;&gt; Using private key /Users/dyamins/amazon/id_rsa-gsg-keypair (rsa)<br>&gt;&gt;&gt; Creating cluster user: gotdata<br>&gt;&gt;&gt; Using private key /Users/dyamins/amazon/id_rsa-gsg-keypair (rsa)<br>&gt;&gt;&gt; Configuring scratch space for user: gotdata<br>
&gt;&gt;&gt; Configuring /etc/hosts on each node<br>&gt;&gt;&gt; Configuring NFS...<br>ssh.py:245 - ERROR - command mount -t devpts none /dev/pts failed with status 32<br>ssh.py:245 - ERROR - command mount -t devpts none /dev/pts failed with status 32<br>
&gt;&gt;&gt; Configuring passwordless ssh for root<br>ssh.py:245 - ERROR - command rm /root/.ssh/id_rsa* failed with status 1<br>&gt;&gt;&gt; Configuring passwordless ssh for user: gotdata<br>&gt;&gt;&gt; Using existing RSA ssh keys found for user: gotdata<br>
&gt;&gt;&gt; Installing Sun Grid Engine...<br>&gt;&gt;&gt; Done Configuring Sun Grid Engine<br>&gt;&gt;&gt; Running plugin govlovePlugin<br><br>The resulting cluster seems to be functioning normally (e.g. the volume is mounted and I can log in to the nodes as both root and CLUSTER_USER), and my SGE jobs seem to be working.    I&#39;ll let you know if anything weird occurs.  Also I&#39;d like to understand the error on line 245 of ssh.py above.<br>
<br>Thanks!<br><br>Dan<br><br><br><br><div class="gmail_quote">On Fri, Apr 30, 2010 at 8:20 PM, Dan Yamins <span dir="ltr">&lt;<a href="mailto:dyamins@gmail.com">dyamins@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
Justin,  I just had a strange situation where suddenly my cluster failed.  here were the symptoms:<br><br>1) all my active ssh terminals timed out<br>2) i couldn&#39;t log back in as the CLUSTER_USER (I got the &quot;permission denied (public key)&quot; error  -- though I could ssh in as root<br>

3) the mounted EBS volume appears to have disappeared  -- e.g. when I tried to cd to it from /root, it was reported as not existing. <br>4) the SGE &quot;qstat&quot; command failed to be recognized.  (e.g. when i run &quot;qstat -xml&quot; as root I got an error in finding the qstat command.) <br>

<br>It seems like my EBS drive might have detached ... but lots of things could have happened.   Any thoughts? <br><br>Anyway, I killed the cluster as i didn&#39;t want o keep paying for it.  I&#39;m starting another one now, and will let you know what the result it.  If it happens again I&#39;ll keep the cluster up and let you know right away.<br>
<font color="#888888">
<br>Dan<br><br>
</font></blockquote></div><br>