<br><br><div class="gmail_quote">On Fri, Jan 8, 2010 at 1:46 PM, Mark J. Pearrow <span dir="ltr">&lt;<a href="mailto:mjp@mit.edu">mjp@mit.edu</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<div style="word-wrap: break-word;">Hi Dan,<div><br></div><div>Thanks for that pointer. I was able to create my own AMI from the starcluster x64 base, aptitude upgrade it, upload, register, and instantiate it via the instructions you reference. SGE worked properly on it at that point. So that seemed quite hopeful. </div>
<div><br></div><div>Once I launched the new instance, and customized it a bit (adding a new couple repositories for apt and installing some applications), then creating a new ec2 volume, uploading and registering it, </div>
</div></blockquote><div><br>Yes, I&#39;m aware of this problem, I&#39;m sorry I didnt include a warning about it in my previous email.  I have two thoughts about this:<br><br>1) If the original bug in create_image.py could be figured out (by Justin) then perhaps this second bug is caused by the same or similar problem and could be fixed then as well.<br>
<br>2) On the other hand: I think you&#39;re trying to do something that is basically ALWAYS a no-no:  rebundling an already-rebundled AMI.    I&#39;ve amost never been able to get an Amazon AMI that I&#39;ve re-re-bundled from a previous re-bundled AMI to work stably.  (Maybe it&#39;s worked one time I tried it.)  I&#39;ve had this problem with multiple AMIs, not just from starcluster&#39;s AMIs, and not just with SGE.   <br>
<br>I&#39;ve written to the EC2 mailing lists about this several times but have never received a response.    I know it sounds sort of hokey and mysterious to put it this way, but something degrades when you do a rebundling, and that degradation seems to get progressively as you iteratively rebundle.   Anecdotally, I feel like the problem always has something to do with the nature of the startup procedures, especially SSL / ssh handling, but I just don&#39;t understand enough about the natures either of SSH setup or server startup to pinpoint the problems more specifically.  [I really wish I could pin down an Amazon AWS engineer in person about this problem and force them to go through a few cases of why this occurs and show me how to fix them.]<br>
<br>Maybe Justin can look into this more closely and fix it ... or maybe someone at Alestic would understand the problem.   <br><br>But for now, probably your best option is to build the whole image from scratch every time you want to add to or modify it.  I know that sounds annoying, and it is ... but I have never found another solution. <br>
<br>Dan<br><br><br><br><br><br><br> </div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><div style="word-wrap: break-word;"><div>I logged into it and I&#39;m back in the same boat: system hangs at the &quot;&gt;&gt;&gt; Installing Sun Grid Engine...&quot; message. When I looked at the ps listing for that instance, I could see that there was a &quot;source /etc/profile &amp;&amp; qconf -Aq /tmp/pe.txt&quot; running. But at that point, qconf won&#39;t work since sge_* isn&#39;t running.</div>
<div><br></div><div>hummmm.</div><div><br></div><font color="#888888"><div>mjp</div></font><div class="im"><div><br></div><div><br></div><div><br></div><div><br><div><div>On Jan 8, 2010, at 9:55 AM, Dan Yamins wrote:</div>
<blockquote type="cite"><div class="gmail_quote"><div>
<br>However, when I followed the directions for rebundling an AMI directly from Amazon&#39;s AWS site (<a href="http://docs.amazonwebservices.com/AWSEC2/latest/GettingStartedGuide/creating-an-image.html" target="_blank">http://docs.amazonwebservices.com/AWSEC2/latest/GettingStartedGuide/creating-an-image.html</a>)  I was able to create very stable working AMIs from the starcluster base images (both 32bit and 64 bit).   Have you tried these directions?    If not, they might work better that create_image.py. </div>
</div></blockquote></div></div></div></div><br>_______________________________________________<br>
Starcluster mailing list<br>
<a href="mailto:Starcluster@mit.edu">Starcluster@mit.edu</a><br>
<a href="http://mailman.mit.edu/mailman/listinfo/starcluster" target="_blank">http://mailman.mit.edu/mailman/listinfo/starcluster</a><br>
<br></blockquote></div><br>